NodeJs超长字符串问题处理

3年前发布

016511

在 Nodejs 计算服务中，对端上上报的内存信息二进制数据进行预处理+缓存时，遇到了一个奇怪的报错：RangeError: Invalid string length 。根据该报错信息，查找得知是字符串长度超过了 node.js 的限制，即 2^29-1 (约 5 亿+)个字符。整体流程如图所示。

关于 node.js string 的长度上限，主要和 V8 引擎「压缩指针」技术有关。按个人理解，其通过压缩指向变量的地址(64 位)中固定的 32 位的方式，从而减少引擎的内存占用。

代码细节

由于需要快速访问某地址，因此缓存的数据结构必须是个对象，即 INodeGraph。具体结构如下：

  type IAddr = string;
// 内存图谱
  declare interface INodeGraph {
    [addr: IAddr]: IParsedNode;
  }
// 内存节点信息
  declare interface IParsedNode {
    addr: IAddr;
    // size, nodeType 等辅助信息
    parentNodeAddr: IAddr[]; // addr
    childNodeAddr: string[]; // addr
    edgeMap: {
      [addr: IAddr]: {
        // 当前节点与父子节点之间的边(关系)的信息
      };
    };
  }

我们目的很明确，就是实现这样一个 js 大对象的持久化存储，并且能够方便快速的转回 js object。为解决此问题，首先想到的能否利用 protobuf 替代 JSON 实现持久化。可惜的是 protobuf 并不适用于动态 key 的场景，它适用于处理数组中存储多个相似结构对象的数据结构。

随后尝试了减少对象中不必要的信息，即缩短对象的固定 key，例如用「pNode」取代冗长的「parentNodeAddr」。对于一个百万个键值对的 object 而言，虽然牺牲了代码的可读性，但在实际的 case 中，能承载的键值对数量大约多了 20%。
事实上回过头来看，更好的处理方式或许是用另外的 Map 存储对象的 key。例如：将nodeGraph.parentNodeAddr这个 key 最大程度缩短为nodeGraph.p

声明 const GraphKey = { parentNodeAddr: 'p' } 保存一个 key 的映射，需要访问某属性时，使用nodeGraph[GraphKey.parentNodeAddr]