3

字符串映射成数字,有什么好的算法嘛

 2 years ago
source link: https://www.v2ex.com/t/838982
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.
neoserver,ios ssh client

V2EX  ›  程序员

字符串映射成数字,有什么好的算法嘛

  leebs · 16 小时 19 分钟前 · 1725 次点击

用 bitmap 存储数据,需要对数据做 offset 映射,有什么好的算法嘛。

21 条回复    2022-03-09 15:30:54 +08:00

kilasuelika

kilasuelika      16 小时 11 分钟前 via Android   ❤️ 1

啥叫 offset 映射

liprais

liprais      16 小时 7 分钟前

murmurhash3

CEBBCAT

CEBBCAT      13 小时 22 分钟前 via iPhone

你……是要做布隆过滤器吗?

murmur

murmur      7 小时 52 分钟前

offset 映射是啥意思,记住用户看书看到的地方?

leebs

leebs      7 小时 14 分钟前

@kilasuelika offset 是偏移量,bitmap 里面的概念,相当于数组下标。

leebs

leebs      7 小时 13 分钟前

@dangyuluo 任意字符串,不是数字字符串,需要编码成数字。

dangyuluo

dangyuluo      7 小时 11 分钟前

那就 md5 然后取前 64bit 做 uint64_t?

gwbw

gwbw      6 小时 40 分钟前

参考 base64 的算法,映射成 base10 ,用 0~9 表示,这种么;要求纯数字的话可能要 base9 ,留一个数字专门补位

Yi23

Yi23      6 小时 37 分钟前

如果单纯的字符串转数字的话,是否可以考虑 36 进制( 26 个英文+10 个数字)转换?但这样子可能会导致转出来的数字会非常大

hu8245

hu8245      6 小时 35 分钟前 via Android

面腾讯就问的这个,蹲一个方案💬

X0ray

X0ray      6 小时 33 分钟前

这?直接 hash 不行吗

also24

also24      6 小时 30 分钟前

直觉上是一个 X-Y Problem

如果是构建布隆过滤器的话,那二进制数据无需转换,直接就能塞进 bitmap ,不需要特殊处理。


如果是想用 bitmap 的下标来表示一个数据的话,那除非特定场景,效率是极低的,基本不存在实际的可行性,用下来还不如直接 hashmap 好用。

zhongchaowade

zhongchaowade      4 小时 41 分钟前

所以需要同时支持正负数,8 ,10 ,16 进制吗?

lniwn

lniwn      3 小时 12 分钟前 via iPhone

难道在说 ascii 码?

EminemW

EminemW      2 小时 11 分钟前

hash 然后 mod ?

sweetsorrow211

sweetsorrow211      2 小时 4 分钟前

md5? sha256?

3dwelcome

3dwelcome      1 小时 53 分钟前

有个叫 perfect hash 的算法,可以满足楼主的需求。

举个例子,有 10 万个字符串需要查重,那么在 redis 里创建一个大小为 10 万的 bitmap 数据结构,用 0 和 1 来表示,当前字符串是否已被占用。

先对 10 万个字符串做预处理,便可以得到一个不冲突,又刚好完美 1:1 匹配进 bitmap ,自定义 hash 映射表。

littlewing

littlewing      1 小时 49 分钟前

楼上说 hash 的,冲突怎么解决?

3dwelcome

3dwelcome      56 分钟前

@littlewing “楼上说 hash 的,冲突怎么解决?”

完美 hash 没冲突。否则就不叫完美了。

About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK