一个死锁导致的invalid connection问题排查

发布于 2025-04-14

分类 Mysql

标签 Go

标签 Mysql

1. 背景

上周社区业务的开发同学反馈他负责的Go应用请求Mysql时不时会报错invalid connection，一直排查不到原因，因此我帮他排查了下，最终发现是一个比较典型的死锁问题，因此记录下排查过程与思路。

首先看下监控报错：

涉及到的SQL:

UPDATE `article_meta` SET `meta_id`=?,`meta_value`=?,`update_time`=? WHERE `meta_id` = ?

表结构

CREATE TABLE `article_meta` (
  `meta_id` bigint(20) NOT NULL AUTO_INCREMENT,
  `article_id` bigint(20) unsigned NOT NULL DEFAULT '0',
  `meta_key` varchar(255) DEFAULT NULL,
  `meta_value` mediumtext,
  `update_time` datetime NOT NULL DEFAULT '0000-00-00 00:00:00' COMMENT '更新时间',
  PRIMARY KEY (`meta_id`),
  KEY `article_id` (`article_id`),
  KEY `meta_key` (`meta_key`)
) ENGINE = InnoDB

2. 排查思路

2.1 根因分析

从invalid connection这个报错信息上首先猜测是Mysql连接的问题，因此到database/sql包下看看哪些位置会报这个错误，通过全文检索并没有发现有这个错误msg。那么继续到Mysql的驱动go-sql-driver/mysql包中查询，最终发现了可能报这个错误的位置大概有两处：

事务提交和回滚时如果连接已关闭会报这个错误
读包时遇到错误（连接被关闭、超时）会报这个错误

结合监控上的报错信息与业务同学配置的readTimeout超时时间基本确认是SQL执行超时导致了readPacket()抛出的错误。

另外readPacket()函数中抛出ErrInvalidConn之前会调用mc.log(err)打印错误信息，打日志实际是使用了defaultLogger打印到了标准输出中:

查询Pod的标准输出之后确实看到了如下输出，进一步佐证了上述的结论

2.2 慢SQL分析

那么我们再回头看执行的SQL，分析下执行慢SQL的原因

UPDATE `article_meta` SET `meta_id`=?,`meta_value`=?,`update_time`=? WHERE `meta_id` = ?

结合表结构可以知道meta_id是主键id，那么这个SQL执行慢不太可能是查询行数据导致的，那么只剩下一种可能：这个SQL在等待锁释放。

SQL执行超过了3000ms，意味着可能存在一个慢事务，锁住该行后执行超过了3000ms，但询问业务同学后得知更新这个表的只有这一个位置。

这时我们再review遍业务代码，尝试从业务代码中找到写蛛丝马迹，代码精简后大概是如下逻辑:

var articleMetaUpdateMap map[string]*UpdateData
...
tx := db.Begin()
for _, value := range articleMetaUpdateMap {
	MetaID := value.MetaID
	err = tx.Table("article_meta").Where("meta_id = ? ", MetaID).Updates(value).Error
	if err != nil {
		tx.Rollback()
		return
	}
}

由于Go map的元素遍历随机性，这个代码逻辑可能会造成如下的执行顺序 | 事务A | 事务B | | - | - | | Update article_meta value=x where meta_id = 1 （锁定了id=1的行）| | | | Update article_meta value=x where meta_id = 2 （锁定了id=2的行）| | Update article_meta value=x where meta_id = 2 (locked，等待事务B释放id=2行锁) | | | | Update article_meta value=x where meta_id = 1 (locked，等待事务A释放id=1行锁) |

好，两个事务互相等待对方释放行锁，一个典型的死锁~

2.3 一些问题

那么为什么Mysql检测到死锁呢？

很简单，这个业务库没有开启死锁检测

> SHOW VARIABLES LIKE 'innodb_deadlock_detect';
Variable_name | Value
innodb_deadlock_detect | OFF

通过SHOW FULL PROCESSLIST查询运行中的线程是不是应该观测到两个线程？

答案是观测不到的，原因是readPacket()超时后会主动关闭连接

data, err := mc.buf.readNext(4)
if err != nil {
    ...
	mc.log(err)
	mc.Close() // 关闭了连接
	return nil, ErrInvalidConn
}

3. 修复方案

在遍历要更新的数据即articleMetaUpdateMap这个map之前，将其转成数组，然后按照主键Id排个序（正序倒序都可），这样可以保证两个事务以相同的上锁顺序进行更新，避免了死锁。

...

阅读全文 »

Mysql身份认证过程

发布于 2025-01-10

分类 Mysql

标签 Mysql

背景

最近有一些hersql的用户希望能支持mysql的caching_sha2_password认证方式，caching_sha2_password与常用的mysql_native_password认证过程差异还是比较大的，因此抽空研究了一下caching_sha2_password身份认证过程，并为hersql支持了caching_sha2_password的能力

hersql是我开源的一款通过http隧道来代理mysql的工具，可以通过http服务来穿透内网的mysql server，地址：github.com/Orlion/hersql

mysql身份认证过程

Client与Server建立TCP连接后，Server返回Initial Handshake Packet，这个包中会携带Server默认的认证方式，因为此时还不清楚登录用户是谁，所以是无法返回准确的认证方式的。

mysql8.0这个值默认值为caching_sha2_password，低版本为mysql_native_password

Client会先以Server返回的认证方式对密码进行加密，然后通过Handshake Response Packet发送给Server，这一轮交互完成后接下来会存在三种case:

认证失败。比如密码错误。
认证成功。成功建立了连接，接下来可以进行命令通信。
返回AuthMoreData包，这时又分为两种情况：
- 包第二个字节 = 0x03，随后是一个正常的 OK 数据包，这是当用户的密码已在Server缓存中并且身份验证已成功时的情况，这种称之为“fast” authentication。
- 包第二个字节 = 0x04，这意味着需要更多数据才能完成身份验证，在使用caching_sha2_password 认证方式时，这意味着用户密码不在Server缓存中，Server要求Client发送用户的完整密码，这就是所谓的“full” authentication。这时Client需要用Server的公钥对密码进行加密然后再次发送给Server。
返回auth switch”包。Server收到Handshake Response Packet后会查询登录用户的认证方式，如果首次认证使用的认证方式与用户指定的认证方式不同，需要进行切换，会在auth switch包中携带准确的认证方式。接下来Client要用Server返回的这个准确的认证方式重新发起一轮认证请求。

mysql_native_password

mysql_native_password 身份验证插件从 MySQL 8.0.34 开始已弃用，在 MySQL 8.4 中默认禁用，并从 MySQL 9.0.0 开始删除。

用户密码存储在mysql.user的authentication_string字段中。在mysql_native_password认证方式下Server端存储的用户密码为原始密码经过两个sha1后的哈希值，没有经过加盐，因此相同的密码存储的值是相同的。

通讯过程简析

Server端会在Initial Handshake Packet返回一个随机数，Client收到之后首先与Server相同的对原始密码进行两次sha1，然后把Server返回的随机数加到摘要中，最终进行一个异或运算，得到最终的认证字符串：

// Hash password using 4.1+ method (SHA1)
func scramblePassword(scramble []byte, password string) []byte {
	if len(password) == 0 {
		return nil
	}

	// stage1Hash = SHA1(password)
	crypt := sha1.New()
	crypt.Write([]byte(password))
	stage1 := crypt.Sum(nil)

	// scrambleHash = SHA1(scramble + SHA1(stage1Hash))
	// inner Hash
	crypt.Reset()
	crypt.Write(stage1)
	hash := crypt.Sum(nil)

	// outer Hash
	crypt.Reset()
	crypt.Write(scramble)
	crypt.Write(hash)
	scramble = crypt.Sum(nil)

	// token = scrambleHash XOR stage1Hash
	for i := range scramble {
		scramble[i] ^= stage1[i]
	}
	return scramble
}

Client通过Handshake Response Packet发送给Server，Server采用与Client相同的算法生成认证字符串，如果两端生成的一致则说明密码正确，认证通过。

caching_sha2_password

这种认证方式下存储在mysql.user的authentication_string字段中值为：

即利用盐值进行5000轮SHA256哈希。

通讯过程简析

同样Server端会先返回一个随机数，Client生成认证字符串的算法为XOR(SHA256(password), SHA256(SHA256(SHA256(password)), scramble))。Server端收到Handshake Response Packet之后首先会检查username/SHA256(SHA256(user_password)) 是否与缓存匹配，如果匹配则认证成功。如果没有匹配的缓存则则要求Client通过SSL连接或者RSA公钥对密码进行加密后再次发送给Server端，Server解密后获取到密码明文然后得到哈希值判断密码是否正确。

...

阅读全文 »

使用AVX2指令集加速推荐系统MMR层余弦相似度计算

发布于 2024-10-10

分类汇编

标签计算机体系结构

标签 Go

1. 背景

前一段时间公司上线了一套Go实现的推荐系统，上线后发现MMR层虽然只有纯计算但耗时十分离谱，通过pprof定位问题所在之后进行了优化，虽然降低了非常多但是我们认为其中还有优化空间。

可以看到日常平均耗时126ms，P95 360ms。

MMR层主要耗时集中在了余弦相似度的计算部分，这部分我们使用的gonum库进行计算，其底层在x86平台上利用了SSE指令集进行了加速。

SSE指令集已经非常古老了，xmm寄存器只能存储两个双精度浮点数，每次只能并行进行两个双精度浮点数的计算，而AVX2指令集可以并行计算四个，理论上可以获得两倍的性能提升，因此我们决定自己使用AVX2指令集手写汇编的方式替代掉gonum库。

1.1 余弦相似度算法

余弦相似度的计算公式为

对应的代码为

import "gonum.org/v1/gonum/floats"

func CosineSimilarity(a, b []float64) float64 {
    dotProduct := floats.Dot(a, b) // 计算a和b的点积
    normA := floats.Norm(a, 2) // 计算向量a的L2范数
    normB := floats.Norm(b, 2) // 计算向量b的L2范数
    return dotProduct / (normA * normB)
}

2. Dot点积计算加速

gonum点积计算Dot的部分汇编代码如下：

TEXT ·DotUnitary(SB), NOSPLIT, $0
    ...
loop_uni:
	// sum += x[i] * y[i] unrolled 4x.
	MOVUPD 0(R8)(SI*8), X0
	MOVUPD 0(R9)(SI*8), X1
	MOVUPD 16(R8)(SI*8), X2
	MOVUPD 16(R9)(SI*8), X3
	MULPD  X1, X0
	MULPD  X3, X2
	ADDPD  X0, X7
	ADDPD  X2, X8

	ADDQ $4, SI   // i += 4
	SUBQ $4, DI   // n -= 4
	JGE  loop_uni // if n >= 0 goto loop_uni

    ...

end_uni:
	ADDPD    X8, X7
	MOVSD    X7, X0
	UNPCKHPD X7, X7
	ADDSD    X0, X7
	MOVSD    X7, sum+48(FP) // Return final sum.
	RET

可以看到其中使用xmm寄存器并行计算两个双精度浮点数，并且还采用了循环展开的优化手段，一个循环中同时进行4个元素的计算。

我们利用AVX2指令集并行计算四个双精度浮点数进行加速

loop_uni:
	// sum += x[i] * y[i] unrolled 8x.
	VMOVUPD 0(R8)(SI*8), Y0 // Y0 = x[i:i+4]
	VMOVUPD 0(R9)(SI*8), Y1 // Y1 = y[i:i+4]
	VMOVUPD 32(R8)(SI*8), Y2 // Y2 = x[i+4:i+8]
	VMOVUPD 32(R9)(SI*8), Y3 // Y3 = x[i+4:i+8]
	VMOVUPD 64(R8)(SI*8), Y4 // Y4 = x[i+8:i+12]
	VMOVUPD 64(R9)(SI*8), Y5 // Y5 = y[i+8:i+12]
	VMOVUPD 96(R8)(SI*8), Y6 // Y6 = x[i+12:i+16]
	VMOVUPD 96(R9)(SI*8), Y7 // Y7 = x[i+12:i+16]
	VFMADD231PD Y0, Y1, Y8 // Y8 = Y0 * Y1 + Y8
	VFMADD231PD Y2, Y3, Y9
	VFMADD231PD Y4, Y5, Y10
	VFMADD231PD Y6, Y7, Y11
	ADDQ $16, SI   // i += 16
	CMPQ DI, SI
	JG  loop_uni // if len(x) > i goto loop_uni

可以看到我们每个循环中同时用到8个ymm寄存器即一次循环计算16个数，而且还用到了VFMADD231PD指令同时进行乘法累积的计算。

最终Benchmark结果：

BenchmarkDot 一个循环中计算8个数
BenchmarkDot-2          14994770                78.85 ns/op
BenchmarkDot16 一个循环中计算16个数
BenchmarkDot16-2        22867993                53.46 ns/op
BenchmarkGonumDot Gonum点积计算
BenchmarkGonumDot-2      8264486               144.4 ns/op

可以看到点积部分我们得到了大约2.7倍的性能提升

3. L2范数计算加速

gonum库中进行L2范数计算的算法并不是常规的a1^2 + a2^2 ... + aN^2这种计算，而是采用了Netlib算法，减少了溢出和下溢，其Go源码如下：

func L2NormUnitary(x []float64) (norm float64) {
	var scale float64
	sumSquares := 1.0
	for _, v := range x {
		if v == 0 {
			continue
		}
		absxi := math.Abs(v)
		if math.IsNaN(absxi) {
			return math.NaN()
		}
		if scale < absxi {
			s := scale / absxi
			sumSquares = 1 + sumSquares*s*s
			scale = absxi
		} else {
			s := absxi / scale
			sumSquares += s * s
		}
	}
	if math.IsInf(scale, 1) {
		return math.Inf(1)
	}
	return scale * math.Sqrt(sumSquares)
}

其汇编代码比较晦涩难懂，但管中窥豹再结合Go源码可以看出来没有用到并行能力，每次循环只计算一个数

TEXT ·L2NormUnitary(SB), NOSPLIT, $0
    ...
loop:
	MOVSD   (X_)(IDX*8), ABSX // absxi = x[i]
	...

我们优化之后的核心代码如下：

loop:
	VMOVUPD 0(R8)(SI*8), Y0 // Y0 = x[i:i+4]
	VMOVUPD 32(R8)(SI*8), Y1 // Y1 = y[i+4:i+8]
	VMOVUPD 64(R8)(SI*8), Y2 // Y2 = x[i+8:i+12]
	VMOVUPD 96(R8)(SI*8), Y3 // Y3 = x[i+12:i+16]
	VMOVUPD 128(R8)(SI*8), Y4 // Y4 = x[i+16:i+20]
	VMOVUPD 160(R8)(SI*8), Y5 // Y5 = y[i+20:i+24]
	VMOVUPD 192(R8)(SI*8), Y6 // Y6 = x[i+24:i+28]
	VMOVUPD 224(R8)(SI*8), Y7 // Y7 = x[i+28:i+32]
	VFMADD231PD Y0, Y0, Y8 // Y8 = Y0 * Y0 + Y8
	VFMADD231PD Y1, Y1, Y9
	VFMADD231PD Y2, Y2, Y10
	VFMADD231PD Y3, Y3, Y11
	VFMADD231PD Y4, Y4, Y12
	VFMADD231PD Y5, Y5, Y13
	VFMADD231PD Y6, Y6, Y14
	VFMADD231PD Y7, Y7, Y15

	ADDQ $32, SI // i += 32
	CMPQ DI, SI
	JG  loop // if len(x) > i goto loop

我们采用原始的算法计算以利用到并行计算的能力，并且循环展开，一次循环中同时计算32个数，最终Benchmark结果：

BenchmarkAVX2L2Norm
BenchmarkAVX2L2Norm-2          29381442                40.99 ns/op
BenchmarkGonumL2Norm
BenchmarkGonumL2Norm-2           1822386               659.4 ns/op

可以看到得到了大约16倍的性能提升

4. 总结

通过这次优化我们在余弦相似度计算部分最终得到了(144.4 + 659.4 * 2) / (53.46 + 40.99 * 2) = 10.8倍的性能提升，效果还是非常显著的。相较于《记一次SIMD指令优化计算的失败经历》这次失败的初次尝试，本次还是非常成功的，切实感受到了SIMD的威力。

另外在本次优化过程中也涨了不少姿势

AVX-512指令降频问题

AVX-512指令因为并行度更高理论上性能也更高，但AVX-512指令会造成CPU降频，因此业界使用非常慎重，这一点可以参考字节的json解析库sonic的这个issue: https://github.com/bytedance/sonic/issues/319

循环展开优化

在一次循环中做更多的工作，优点有很多：

减少循环控制的开销，循环变量的更新和条件判断次数更少，降低了分支预测失败的可能性
增加指令并行性，更多的指令可以在流水线中并行执行

但一次循环使用过多的寄存器从实际Benchmark看性能确实更好，但是否存在隐患我没有看到相关的资料，希望这方面的专家可以指教一下。

...

阅读全文 »

又一个Rust练手项目-wssh(SSH over Websocket Client)

发布于 2024-08-31

分类 Rust

标签 Rust

1. wssh

1.1 开发背景

公司内部的发布系统提供一个连接到k8s pod的web终端，可以在网页中连接到k8s pod内。实现原理大概为通过websocket协议代理了k8s pod ssh，然后在前端通过xterm.js+websocket实现了web终端的效果。

但是每次需要进pod内调试点东西都需要打开浏览器进到发布系统里一通点点点才能进入，而发布系统页面加载的又非常慢，所以效率非常低。

因此使用Rust实现了一个命令行工具，可以在本机终端中通过命令连接到k8s pod，实现了类似于ssh client的效果。这样一来不仅简化了我登陆pod的过程，又熟悉了Rust，还输出了篇博客。

项目地址:github.com/Orlion/wssh

1.2 效果

通过-e test指定为测试环境，执行后会先调用发布系统的应用列表api查询出所有应用，然后在输出中列出所有应用供用户选择
选择应用后通过连接到websocket server，websocket server转发到与pod的ssh连接，实现“SSH”到应用的pod的效果

2. 原理

公司发布系统的现状:

首先我们的发布系统提供了一个Websocket Server，这个server实际代理了到k8s pod ssh连接。然后在前端通过xterm.js模拟了一个终端，通过websocket连接到server。

wssh替换了前端：

3. 实现细节

3.1 命令行参数解析

wssh命令行参数解析使用了clap这个库

let clap_command = clap::Command::new("wssh")
    .version("0.1.0") // 指定版本号
    .author("Orlion") // 作者
    .about("SSH over Websocket 客户端")
    .arg(  // 添加命令行参数
        clap::Arg::new("env")
            .long("env")
            .short('e')
            .help("环境 test/preview")
            .value_name("ENV")
            .required(true),
    );
let matches = clap_command.get_matches();
// 获取--env参数值
let env = matches.get_one::<String>("env").expect("请输入--env参数");

3.2 发布系统登录

如1.1节所述，wssh会调用发布系统的api，发布系统需要先登录才能调用，但是调用登录api比较麻烦，还需要用户输入账号密码，因此wssh使用了github.com/thewh1teagle/rookie 库直接读取发布系统域名下的cookie，免去了输入账号密码的麻烦，非常的简单。

let domains = vec!["jumpserver.domain.com".into()];
let cookies = rookie::chrome(Some(domains)).map_err(|e| { // 使用rookie从chrome获取jumpserver的cookie
    error::from_string(format!("获取jumpserver cookie失败: {}", e.to_string()))
})?;

let mut cookie_map: HashMap<String, Cookie> = HashMap::new();
for cookie in cookies {
    if cookie.name == "sessionid" || cookie.name == "JUMPSERVER_SESS_ID" {
        cookie_map.insert(cookie.name.clone(), cookie);
    }
}

let cookies = cookie_map
    .values()
    .map(|cookie| format!("{}={}", cookie.name, cookie.value))
    .collect::<Vec<String>>()
    .join("; ");
}

3.3 命令行中输出应用列表

在命令行中输出列表供用户选择如果手动输出的话出来的效果是比较差的，因此找到了dialoguer这个库，这个库提供了一个模糊搜索的组件FuzzySelect

let app_index =
    dialoguer::FuzzySelect::with_theme(&dialoguer::theme::ColorfulTheme::default())
        .with_prompt("请选择应用") // 提示信息
        .item("0. 退出") // 为用户提供退出的选项
        .items(&app_selections) // 输出应用列表
        .default(0) // 默认选择退出
        .interact()
        .map_err(|e| error::from_string(format!("选择应用失败: {}", e.to_string())))?;

3.4 通过websocket登陆到pod

首先使用tokio_tungstenite库建立websocket连接。

let uri = format!(
    "wss://jumpserver.domain.com/ssh?ssh_token={}",
    urlencoding::encode(ssh_token),
);
let (socket, response) = tokio_tungstenite::connect_async(uri)
    .await
    .map_err(|e| error::from_string(format!("websocket连接失败: {}", e.to_string())))?;

开发这部分连接功能时踩了个“坑”，原因是刚开始开发时对Rust的异步特性不熟悉，所以想使用同步多线程的方案，所以开始使用了tungstenite::connect()创建了同步连接，后来在进行两个线程并行读写时遇到了问题，原因是connect返回的对象的read()方法和write()方法接收的是&mut self，因为Rust不允许同时存在两个可变引用，所以并发读写是不可能的。

所以后来换成了tokio_tungstenite::connect_async()函数，这个函数返回的对象提供了split()方法可以将一个连接切分成一个读句柄和一个写句柄，这样就可以并行读写了。

另外查阅文档的过程中也得知了TCP连接可拆分而TLS连接是不可拆分的，所以如果你的websocket server可以通过ws而没有强制wss的话可以使用rs-websocket这个古老的库，这个库的同步连接方法返回的TCP连接是可以拆分的。

3.5 标准输出的调整

要在本地输出远程ssh server输出的内容之前还需要做以下三个调整。

发送window-change请求本地终端窗口大小初始化和发生变更时都需要同步ssh server的，以便获得一致的显示效果，如果不发送可能会导致显示内容被截断或者格式不正确，并且vim等命令依赖于准确的终端尺寸来显示界面。
将标准输出设置为raw模式。在raw模式下，标准输出表现为
- 没有行缓存，会逐字节输出
- 不会回显输入，必须由程序写入
- 输出未规范化（例如，\n 表示“向下一行”，而不是“换行符”）

let mut stdout = std::io::stdout().into_raw_mode()

4. 总结

通过这个项目又加深了对Rust的理解，过程中还首次用到了反人类的生命周期标注🤦🏻‍♀️（虽然后面简化掉了)，收获很大，Rust远比看上去简单。

同时越发感慨Go的简易性，Go的协程结合channel、select等组件无疑极大降低了并发编程的难度，如果使用Go来开发这个工具想必难度会相当低。

我的博客即将同步至腾讯云开发者社区，邀请大家一同入驻：https://cloud.tencent.com/developer/support-plan?invite_code=3ac3jhp77t0k8

...

阅读全文 »

磁盘哈希结构-Linear Hashing

发布于 2024-08-06

分类存储

1. Linear Hashing

最近在思考一个问题，如果一个存储引擎不需要支持范围查询，那么使用hashtable这样的数据结构是否更合适？恰好看到了lotusdb中使用了一个diskhash的库，从源码看是使用了一种Linear Hashing的哈希表数据结构，由于磁盘与内存的特性不同，因此磁盘哈希结构与常见的内存hashtable不太一样，特意研究了下。

2. 数据结构

通过primaryFile文件来存储hash桶，每个桶上有slotsPerBucket个槽，每个槽存储一个KV对，桶的数量为2 ^ Level个。当所有槽都用完时，在overflowFile中创建溢出桶，并通过nextOverflow记录新创建的溢出桶在文件中的offset。

初次创建时，会将Level初始化为0，SplitBucketIndex为0，然后创建出primaryFile并初始出一个桶

3. Put

写入过程如下：

计算key的hash，然后hash对桶数量取模计算出key所在的桶

bucketIndex := keyHash & ((1 << t.meta.Level) - 1)

遍历bucketIndex对应的桶以及该桶所有溢出桶上的所有slot，寻找key对应的槽
- 如果找到则原地更新
- 如果没有找到说明这是一个新key，则在第一个空槽上插入
- 如果是新key且没有空槽，这时就需要创建一个溢出桶出来
如果是新增key，需要判断下当前的负载因子是否超过阈值，超过阈值需要进行扩容

3.1 创建溢出桶

一般情况下溢出桶的创建是通过调用File.Truncate()扩容实现的，这里还有个逻辑是在hashtable进行扩容时，有些溢出桶不再使用可以被释放，这些溢出桶会被缓存下来，在创建溢出桶复用这些被释放的溢出桶。

4. 扩容

Linear Hashing的扩容是其核心部分，与内存hashtable常见的扩容策略有所不同，这里重点解释下

4.1 扩容时机

每当新增key之后都会重新计算当前的负载因子，负载因子的计算公式如下

keyRatio := float64(t.NumKeys) / float64(t.NumBuckets*slotsPerBucket) // slotsPerBucket是一个常量

即KV对的数量除以槽的数量。当负载因子超过阈值（默认是0.7）时触发扩容

if keyRatio > t.options.LoadFactor {
	t.split()
}

4.2 扩容过程

Linear Hashing维护一个指针SplitBucketIndex，每次扩容时就拆分这个指针指向的桶。

拆分前会将存储桶的文件扩大一个桶的大小，即增加一个桶。拆分时遍历旧桶所有槽，重新计算槽所在的位置，然后迁移到新桶上。

然后将SplitBucketIndex加1指向下一个桶，加完之后如果溢出了则将SplitBucketIndex归零，这时还要将Level+1，即标识桶数量翻倍。

5. 删除

删除过程比较简单，首先计算key的hash，然后取模计算出所在的桶，遍历桶上所有槽，如果找到槽则将槽置为空，然后写回磁盘

...

阅读全文 »

一个用rust写的类似于Skywalking/CAT的迷你trace PHP扩展

发布于 2024-05-14

分类 Rust

标签 Rust

标签 PHP

1. 简介

最近在学习rust，恰好看到了skywalking的php扩展采用了rust编写。有用过Skywalking/CAT之类监控系统的同学应该知道，这类系统对我们开发工作帮助非常大，能够非常快的帮我们定位到问题的关键，比如说现在有一个api的请求响应非常慢，那我们就可以从系统提供的web ui中查询这个api请求的链路各个节点的耗时，从而精准的定位慢的关键。

但是这类系统搭建起来还是比较繁琐的，对于个人开发者或者一些小公司来说成本比较高，因此我在apache/skywalking-php的基础上对其进行精简和部分增强，去掉其上报到skywalking server的部分，将trace log写入到本地文件，在这个本地文件中会记录以下内容：

1. 调用CURL时，记录开始结束时间以及耗时，如果发生错误会将错误信息记录下来

{
	"trace_id": "b89143d7-0fda-43d5-a688-397aef0ee3ef",
	"kind": "CURL",
	"name": "https://error.blog.fanscore.cn/a/57/",
	"payload": {
		"http_code": "0",
		"query": "k1=v1&k2=k2&k3=v3",
		"curl_error": "Could not resolve host: error.blog.fanscore.cn"
	},
	"start_time": "10:19:03.596", // 时间格式%H:%M:%S%.3f
	"end_time": "10:19:03.602",
	"duration_in_micro": 5988 // 耗时
}

{
	"trace_id": "b89143d7-0fda-43d5-a688-397aef0ee3ef",
	"kind": "CURL",
	"name": "https://blog.fanscore.cn/a/57/",
	"payload": {
		"http_code": "200",
		"curl_error": "",
		"query": "k1=v1&k2=k2&k3=v3"
	},
	"start_time": "10:19:03.602",
	"end_time": "10:19:03.969",
	"duration_in_micro": 366647
}

2. 调用PDO函数时，记录开始结束时间以及耗时，如果发生错误会将错误信息记录下来

{
	"trace_id": "b89143d7-0fda-43d5-a688-397aef0ee3ef",
	"kind": "PDO",
	"name": "__construct",
	"payload": {
		"result": "unknown",
		"dsn": "mysql:host=127.0.0.1;dbname=blog;charset=utf8mb4"
	},
	"start_time": "10:19:03.969",
	"end_time": "10:19:03.980",
	"duration_in_micro": 11175
}
{
	"trace_id": "b89143d7-0fda-43d5-a688-397aef0ee3ef",
	"kind": "PDO",
	"name": "query",
	"payload": {
		"statement": "select * from article",
		"result": "object(PDOStatement)"
	},
	"start_time": "10:19:03.980",
	"end_time": "10:19:03.985",
	"duration_in_micro": 5471
}
{
	"trace_id": "b89143d7-0fda-43d5-a688-397aef0ee3ef",
	"kind": "PDO_STATEMENT",
	"name": "fetchAll",
	"payload": {
		"query_string": "select * from article",
		"result": "array(3)"
	},
	"start_time": "10:19:03.985",
	"end_time": "10:19:03.985",
	"duration_in_micro": 25
}

3. 捕获PHP代码中的错误

{
	"trace_id": "b89143d7-0fda-43d5-a688-397aef0ee3ef",
	"kind": "ERROR",
	"name": "E_WARNING: Undefined variable $undefined_value in /Users/orlion/workspace/nginx/www/ptrace/index.php on line 32",
	"payload": {},
	"start_time": "10:19:03.986",
	"end_time": "10:19:03.986",
	"duration_in_micro": 2
}

4. 捕获PHP代码中未捕获的异常

{
	"trace_id": "b89143d7-0fda-43d5-a688-397aef0ee3ef",
	"kind": "EXCEPTION",
	"name": "Exception: test exception in /Users/orlion/workspace/nginx/www/ptrace/index.php on line 34",
	"payload": {
		"trace": "#0 {main}"
	},
	"start_time": "10:19:03.986",
	"end_time": "10:19:03.986",
	"duration_in_micro": 1
}

5. 请求结束后会记录请求开始结束时间、状态码、GET/POST参数

{
	"trace_id": "b89143d7-0fda-43d5-a688-397aef0ee3ef",
	"kind": "URL",
	"name": "/index.php",
	"payload": {
		"$_GET": "{\"a\":\"1\",\"b\":\"2\",\"c\":\"3\"}",
		"$_POST": "[]",
		"method": "GET",
		"status_code": "200"
	},
	"start_time": "10:19:03.595",
	"end_time": "10:19:03.992",
	"duration_in_micro": 397178
}

2. 安装

Requirement

项目地址: https://github.com/Orlion/minitrace
php 8.0+
mac arm64

很遗憾，目前只提供mac arm64版本，后续会编译出linux版本，但因为依赖的phper-framework/phper的库不支持windows，因此短期内恐怕不能提供windows版本了。

进入https://github.com/Orlion/minitrace/releases 下载编译好的扩展二进制文件到本地
假设第一步将扩展下载到了/tmp/minitrace-v0.1.0-macos-arm64.dylib，编辑php.ini配置文件加入以下配置

[minitrace]
;加载我们的扩展
extension=/tmp/minitrace-v0.1.0-macos-arm64.dylib
;将trace数据输出到/tmp/minitrace.log
minitrace.log_file = /tmp/minitrace.log

重启fpm

3. 测试使用

编辑以下php文件

<?php

$ch = curl_init();
curl_setopt($ch, CURLOPT_URL, 'https://error.blog.fanscore.cn/a/57/?k1=v1&k2=k2&k3=v3#aaa');
curl_setopt($ch, CURLOPT_RETURNTRANSFER, true);
$response = curl_exec($ch);

$ch = curl_init();
curl_setopt($ch, CURLOPT_URL, 'https://blog.fanscore.cn/a/57/?k1=v1&k2=k2&k3=v3#aaa');
curl_setopt($ch, CURLOPT_RETURNTRANSFER, true);
$response = curl_exec($ch);

$host = '127.0.0.1';
$db   = 'blog';
$user = 'root';
$pass = '123456';
$charset = 'utf8mb4';
$dsn = "mysql:host=$host;dbname=$db;charset=$charset";
$options = [
    PDO::ATTR_ERRMODE            => PDO::ERRMODE_EXCEPTION,
    PDO::ATTR_DEFAULT_FETCH_MODE => PDO::FETCH_ASSOC,
    PDO::ATTR_EMULATE_PREPARES   => false,
];
$pdo = new PDO($dsn, $user, $pass, $options);
$stm = $pdo->query('select * from article');
$rows = $stm->fetchAll();
foreach($rows as $row) {
    print_r($row);
}


var_dump($undefined_value);

throw new Exception('test exception');
?>

然后在浏览器中请求该文件，打开/tmp/minitrace.log就能看到如下输出：

{"trace_id":"b89143d7-0fda-43d5-a688-397aef0ee3ef","kind":"CURL","name":"https://error.blog.fanscore.cn/a/57/","payload":{"http_code":"0","query":"k1=v1&k2=k2&k3=v3","curl_error":"Could not resolve host: error.blog.fanscore.cn"},"start_time":"10:19:03.596","end_time":"10:19:03.602","duration_in_micro":5988}
{"trace_id":"b89143d7-0fda-43d5-a688-397aef0ee3ef","kind":"CURL","name":"https://blog.fanscore.cn/a/57/","payload":{"http_code":"200","curl_error":"","query":"k1=v1&k2=k2&k3=v3"},"start_time":"10:19:03.602","end_time":"10:19:03.969","duration_in_micro":366647}
{"trace_id":"b89143d7-0fda-43d5-a688-397aef0ee3ef","kind":"PDO","name":"__construct","payload":{"result":"unknown","dsn":"mysql:host=127.0.0.1;dbname=blog;charset=utf8mb4"},"start_time":"10:19:03.969","end_time":"10:19:03.980","duration_in_micro":11175}
{"trace_id":"b89143d7-0fda-43d5-a688-397aef0ee3ef","kind":"PDO","name":"query","payload":{"statement":"select * from article","result":"object(PDOStatement)"},"start_time":"10:19:03.980","end_time":"10:19:03.985","duration_in_micro":5471}
{"trace_id":"b89143d7-0fda-43d5-a688-397aef0ee3ef","kind":"PDO_STATEMENT","name":"fetchAll","payload":{"query_string":"select * from article","result":"array(3)"},"start_time":"10:19:03.985","end_time":"10:19:03.985","duration_in_micro":25}
{"trace_id":"b89143d7-0fda-43d5-a688-397aef0ee3ef","kind":"ERROR","name":"E_WARNING: Undefined variable $undefined_value in /Users/orlion/workspace/nginx/www/ptrace/index.php on line 32","payload":{},"start_time":"10:19:03.986","end_time":"10:19:03.986","duration_in_micro":2}
{"trace_id":"b89143d7-0fda-43d5-a688-397aef0ee3ef","kind":"EXCEPTION","name":"Exception: test exception in /Users/orlion/workspace/nginx/www/ptrace/index.php on line 34","payload":{"trace":"#0 {main}"},"start_time":"10:19:03.986","end_time":"10:19:03.986","duration_in_micro":1}
{"trace_id":"b89143d7-0fda-43d5-a688-397aef0ee3ef","kind":"URL","name":"/index.php","payload":{"$_GET":"{\"a\":\"1\",\"b\":\"2\",\"c\":\"3\"}","$_POST":"[]","method":"GET","status_code":"200"},"start_time":"10:19:03.595","end_time":"10:19:03.992","duration_in_micro":397178}

...

阅读全文 »

rust所有权和借用中的一些case

发布于 2024-05-12

分类 Rust

标签 Rust

前言

学习rust有一段时间了，也用rust写了两个小项目，过程中发现一些rust教程在所有权和引用这一章节的讲解还是不够丰富，有很多case没有讲到，对所有权和引用的理解不够深入，这就导致实际应用时经常卡在所有权和引用，后面查阅一些资料在社区请教一些大佬后才理解，因此将最近练习过程中遇到的一些所有权和引用方面的问题总结成本文，分享给大家，帮大家踩踩坑。

1. 所有权

let a = 1;
let b = a; // a拷贝给b
println!("{}", a); // 不会报错

a的值被拷贝给了b，a和b被存储在栈上，无需在堆上分配内存

let a = String::from("a");
let b = a;
println!("{}", a); // 会报错，上一行a的所有权转移给了b，a不能再使用了

新手在这里可能会产生疑问？当执行形如let b = a;这样的代码时，到底什么情况下发生拷贝，什么情况下转移所有权呢？问题的答案其实非常简单:

只要a实现了Copy trait，那么就会拷贝，如果没有实现则转移所有权

那么为什么不能拷贝呢？我们可以以String这个类型为例，String是一个复杂类型，由存储在栈上的堆指针、字符串长度、字符串容量组成。

我们假设这里也是拷贝，那么a和b都会持有这个堆指针，当变量离开作用域后，rust会自动清理堆内存，由于a和b都指向了同一位置，那么会释放两次，这就导致了bug。

因此rust这样解决问题：当a赋值给b后，rust认为a不再有效，因此a离开作用域之后不会二次释放，这就是把所有权从a转移到了b。a被赋值给b之后就失效了，因此不能再使用。

如果String实现了Copy trait，拷贝a给b时，把堆指针指向的数据也复制一遍，同时将新的堆指针给b，那么a和b就不会指向同一个位置，就不会二次释放，自然就不会发生二次释放的bug了。

以下类型实现了Copy trait

所有整数类型，比如 u32
布尔类型，bool，它的值是 true 和 false
所有浮点数类型，比如 f64
字符类型，char
元组，当且仅当其包含的类型也都是 Copy 的时候。比如，(i32, i32) 是 Copy 的，但 (i32, String) 就不是
不可变引用 &T，注意: 可变引用 &mut T 是不可以 Copy的（如果Copy相当于两个指针指向一个位置，又会出现上面的二次释放的问题了）

1.1 结构体

结构体所有权问题比较复杂，这里单独拿出来分析。

先看一个简单的

struct User {
    age:
}

let user1 = User {
    age: 100,
};

let user2 = user1;
println!("{:}", user1); // 会报错，因为User没有实现Copy trait，所以user1的所有权转移给了user2
println!("{:}", user1.sign_in_count); // 会报错，user1已经无法使用了

这里要注意，虽然user1分配在栈上，但它没有实现Copy trait，仍然会发生所有权的转移

再看看一个复杂的

struct User {
    username: String,
    age: i128,
}

let user1 = User {
    username: String::from("user1"),
    age: 100,
};

let user2 = User {
    username: user1.username,
    age: user1.age
};

println!("{}", user1.age); // 不会报错，age发生了copy，而非所有权转移，可以继续使用
println!("{}", user1.username); // 会报错，username发生了所有权的转移
println!("{:}", user1); // 会报错

这里需要注意的是结构体内部的字段发生所有权转移后，会导致结构体本身也无法继续使用。但是其内部发生copy的值还是可以继续使用的，也就是user1.age还能继续使用不会报错的原因。

1.2 Option 所有权转移问题

我们先明确一个规则: 只要Option<T>中的T实现了Copy trait，那么Option<T>就实现了Copy trait

let a = Some(String::from("hello world!"));
let b = a.unwrap();
let c = a.unwrap(); // 这里会报错

我们分析下报错的原因，首先看unwrap的源码

pub const fn unwrap(self) -> T {
    match self {
        Some(val) => val,
        None => unwrap_failed(),
    }
}

从上面可以看到，调用unwrap时，因为Option<String>没有实现Copy trait，所以a发生了所有权转移，a的所有权转移到了unwrap里，所以第二次调用unwrap时就会报错。

解决办法就是调用as_ref/as_mut或者将Option<String>换成Option<&String>，rust中引用默认实现了Copy trait，所以Opiton<&String>不会发生所有权转移看下as_ref的源码：

pub const fn as_ref(&self) -> Option<&T> {
    match *self {
        Some(ref x) => Some(x),
        None => None,
    }
}

2. 引用

2.1 可变引用

只能可变的引用一个可变变量

let a = 1;
let b = &mut a; // 会报错，无法可变引用一个不可变变量

同一时刻只能存在一个可变引用

let mut a = 1;
let b = &mut a;
*b = 2;
println!("{}", a); // 会报错，可以将a理解成1的一个引用，因为下一行println!("{}", b);所以b这个可变引用的生命周期还未结束，那么此时如果使用a，则违反了可变引用与不可变引用不能同时存在的规则
println!("{}", b);

2.2 解引用

结构体解引用

let user = String::from("user");
let user_ref = &user;
let _user_1 = *user_ref; // 报错

第三行会报错:

error[E0507]: cannot move out of `*user_ref` which is behind a shared reference
  --> src/main.rs:30:19
   |
30 |     let _user_1 = *user_ref;
   |                   ^^^^^^^^^ move occurs because `*user_ref` has type `String`, which does not implement the `Copy` trait

这个报错看到有解释说不能解引用获取到所有权(String没有实现Copy trait只能将user的所有权转移给_user_1)，但是这里将user的所有权转移给_user_1也并不会造成什么错误，所以我猜测是rust编译器限制了不能通过解引用间接转移所有权，只能直接转移。

这里还有个case：let _user_1 = &(*user_ref); 这种写法可以编译通过，猜测是编译器优化直接拷贝的引用，而不是先转移所有权再取引用。

3. 参考资料

...

阅读全文 »

一种应用于特定场景的支持LRU的线程安全的无锁uint32->uint32 cache实现

发布于 2024-03-14

分类存储

标签 Go

标签计算机体系结构

1. 前言

几年前给公司前台业务一个QPS很高的接口做了一个优化，主要请求来源是当前在线用户，接口核心逻辑就是从codis中根据一个数字查询对应的用户id(小于1亿)，这两个数字的映射关系是不变的，可以理解为codis中有一个map[uint32]uint32的映射表，这个映射表只增不改。

因为接口对codis造成压力很大，因此决定在Go内存中将映射关系缓存下来，但由于这个映射表很大所以不能全部缓存中内存。因此结合业务逻辑决定引入了一个支持LRU淘汰策略的uint32 -> uint32的高性能缓存组件。

调研之后发现市面上Go的各种线程安全还支持LRU的缓存都是有锁的，性能可能受限，因此决定根据应用场景自己搞个特殊的缓存组件。

2. 实现原理

首先还是贴一下源码仓库地址: https://github.com/Orlion/intcache

2.1 结构体定义：

type IntCache struct {
	b          uint8
	buckets    [][8]uint64
	lruBuckets []uint32
}

func New(b uint8) *IntCache {
	cap := 1 << b
	return &IntCache{
		b:          b,
		buckets:    make([][8]uint64, cap),
		lruBuckets: make([]uint32, cap),
	}
}

如上图所示，一个IntCache有2^b个bucket和lruBucket，一个bucket有8个K-V对，一个K-V对使用uint64来存储，前32bit存储key，后32bit存储value。一个lruBucket有8个lru值，采用uint32存储，每4bit存储bucket对应的每个K-V对的lru值。

这里你可能会很奇怪为什么lru要单独存储，不要急，继续往下看，读流程时我会详细解释。

2.2 写流程

func (c *IntCache) Set(key uint32, value uint32) {
        if key == 0 && value == 0 {
		panic("key and value can't be 0")
	}
	bucketi := key & (1<<c.b - 1)
	for i := 0; i < 8; i++ {
		e := atomic.LoadUint64(&c.buckets[bucketi][i])
		if e == 0 {
			atomic.StoreUint64(&c.buckets[bucketi][i], uint64(key)<<32|uint64(value))
			c.updLru(bucketi, i)
			return
		}

		if uint32(e>>32) == key {
			e = uint64(key)<<32 | uint64(value)
			atomic.StoreUint64(&c.buckets[bucketi][i], e)
			c.updLru(bucketi, i)
			return
		}
	}

	// find the min lru
	lrus := atomic.LoadUint32(&c.lruBuckets[bucketi])
	var (
		minLru uint32
		mini   int
	)

	for i := 0; i < 8; i++ {
		lru := lrus | 0b1111<<uint32(i)
		if lru < minLru {
			minLru = lru
			mini = i
		}
	}

	atomic.StoreUint64(&c.buckets[bucketi][mini], uint64(key)<<32|uint64(value))
	c.updLru(bucketi, mini)
}

写入步骤如下：

key对容量取模，计算出key落到哪个桶里，然后遍历桶中8个槽(K-V对)
如果遍历槽为0，说明这个槽还没有被占用，写入当前槽，并更新lru值为7，其他槽的lru值-1
如果遍历槽的key等于当前的key，则更新这个槽的值，并更新lru值为7，其他槽的lru值-1
如果遍历完后没有空槽也没有命中key，则找到lru值最小的，淘汰掉然后写入新key并更新lru值

2.3 读流程

func (c *IntCache) Get(key uint32) (value uint32, exists bool) {
	bucketi := key & (1<<c.b - 1)
	for i := 0; i < 8; i++ {
		e := atomic.LoadUint64(&c.buckets[bucketi][i])
                if e == 0 {
			break
		}
                
		if uint32(e>>32) == key {
			value = uint32(e)
			exists = true
			c.updLru(bucketi, i)
			break
		}
	}

	return
}

读取步骤如下：

key对容量取模，计算出key落到哪个桶里，然后遍历桶中8个槽(K-V对)
如果遍历到的槽为0，说明后面的槽都是没有数据的，无需继续遍历
如果遍历到的槽的key等于查询的key，则返回value，并更新lru值

3. 总结

3.1 为什么lru要单独存储

每个bucket占用8*8=64B，正好是一个x86 cpu cacheline的大小，刚好填满一个cacheline，这样遍历bucket上8个槽实际只需要读取第一个槽时访问一次内存，后续访问都会直接从cpu cache中读到（当然前提是没有写请求造成cacheline过期），这样可以充分利用cpu缓存。

如果lru值与bucket存储在一起，那么系统中大量的读请求修改lru值就会造成cacheline过期的可能性就会变大，而如果分开存储，读请求不会造成cacheline过期。

你可能会问频繁的写入也会造成cacheline过期影响性能啊，但是我们这是一个典型的读多写少的系统，而且大量的bucket也降低了cacheline过期的几率。

3.2 缺陷

3.2.1 适用场景有限

由于我这个组件用在了在线用户访问的场景中，我将bucket数量设置为日活人数/8，hash冲突的几率还是比较小的，从监控看缓存命中率还是比较可观的。

但是由于不是严格的LRU，因此其他业务场景可能不适用。

3.2.2 value与lru值的更新不是原子的

因为要提高cpu cache命中率，因此value更新与lru更新是分离的，无法做到原子性，这也是很不严谨的，但是我们这个业务场景中不需要严谨的lru，所以可以忽略。

4. 基准测试

与fastcache对比的基准测试代码

func BenchmarkIntcache(b *testing.B) {
	rand.Seed(1)
	var B uint8 = 21
	m := New(B)
	for i := 0; i < b.N; i++ {
		intcacheBenchmarkFn(m)
	}
}

func BenchmarkFastcache(b *testing.B) {
	rand.Seed(1)
	m := fastcache.New(1 << 21 * (64 + 8))
	for i := 0; i < b.N; i++ {
		fastcacheBenchmarkFn(m)
	}
}

func intcacheBenchmarkFn(m *IntCache) {
	wg := &sync.WaitGroup{}
	for i := 0; i < 1000; i++ {
		wg.Add(1)
		go func() {
			for j := 0; j < 300; j++ {
				key := rand.Uint32()
				m.Set(key, key)
				m.Get(key)
			}
			wg.Done()
		}()
	}
	wg.Wait()
}

func fastcacheBenchmarkFn(m *fastcache.Cache) {
	wg := &sync.WaitGroup{}
	for i := 0; i < 1000; i++ {
		wg.Add(1)
		go func() {
			for j := 0; j < 300; j++ {
				key := rand.Uint32()
				b := make([]byte, 4) // uint64的大小为8字节
				binary.LittleEndian.PutUint32(b, key)
				m.Set(b, b)
				r := make([]byte, 4)
				m.Get(r, b)
			}
			wg.Done()
		}()
	}
	wg.Wait()
}

都是1000个协程并发读写300次，结果：

goos: darwin
goarch: arm64
pkg: github.com/Orlion/intcache
BenchmarkIntcache
BenchmarkIntcache-10                  14          78865301 ns/op
BenchmarkFastcache
BenchmarkFastcache-10                 10         113746746 ns/op
PASS
ok      github.com/Orlion/intcache      9.767s

可以看到我们这个实现要快一点。

...

阅读全文 »

记一次SIMD指令优化计算的失败经历

发布于 2024-03-02

分类汇编

标签 Go

标签计算机体系结构

1. 前言

书接上回《统计一个数字二进制位1的个数》，现在我们已经知道如何快速计算出一个int64数字的二进制位1的个数，那么回到我们最初的需求，我们的目的是快速统计一个bitmap中二进制位1的个数，假设我们使用[]uint64来实现bitmap，那么如果要统计这个bitmap中二进制位1的个数，我们可以遍历每个元素，计算出每个uint64元素二进制位1的个数，最后加起来，代码大概如下：

type Bitmap []uint64

func (bitmap Bitmap) OnesCount() (count int) {
	for _, v := range bitmap {
		count += OnesCount64(v)
	}

	return
}

const m0 = 0x5555555555555555 // 01010101 ...
const m1 = 0x3333333333333333 // 00110011 ...
const m2 = 0x0f0f0f0f0f0f0f0f // 00001111 ...

// 计算出x中二进制位1的个数，该函数上篇文章有详细解释，看不懂可以再回去看下
func OnesCount64(x uint64) int {
	const m = 1<<64 - 1
	x = x>>1&(m0&m) + x&(m0&m)
	x = x>>2&(m1&m) + x&(m1&m)
	x = (x>>4 + x) & (m2 & m)
	x += x >> 8
	x += x >> 16
	x += x >> 32
	return int(x) & (1<<7 - 1)
}

这种实现方式在bitmap元素过多，切片长度过长的情况下，计算十分耗时。那么如何优化这段代码呢？

2. 优化

现代CPU一般都支持SIMD指令，通过SIMD指令可以并行执行多个计算，以加法运算为例，如果我们要计算{A0,A1,A2,A3}四个数与{B0,B1,B2,B3}的和，不使用SIMD指令的话，需要挨个计算A0+B0、A1+B1、A2+B2、A3+B3的和。使用SIMD指令的话，可以将{A0,A1,A2,A3}和{A0,A1,A2,A3}四个数加载到xmm(128bit)/ymm(256bit)/zmm(512bit)寄存器中，然后使用一条指令就可以同时计算对应的和。这样理论上可以获得N倍的性能提升。

我们可以采用SIMD指令将OnesCount64函数并行化，并行计算4个uint64数字的结果，代码实现如下：

在popcnt.go文件中定义SimdPopcntQuad函数

package popcnt

func SimdPopcntQuad(nums [4]uint64) [4]uint64

在popcnt.s文件中我们使用汇编实现SimdPopcntQuad函数

#include "textflag.h"

TEXT ·SimdPopcntQuad(SB),NOSPLIT,$0-64
    VMOVDQU nums+0(FP), Y0 // Y0 = x，将四个uint64数字加载到Y0寄存器
    MOVQ $0x5555555555555555, AX
    MOVQ AX, X9
    VPBROADCASTQ X9, Y5 // Y5 = m0 // 上面三行代码将4个m0加载到Y5寄存器
    MOVQ $0x3333333333333333, AX
    MOVQ AX, X9
    VPBROADCASTQ X9, Y6 // Y6 = m1 // 上面三行代码将4个m1加载到Y6寄存器
    MOVQ $0x0f0f0f0f0f0f0f0f, AX
    MOVQ AX, X9
    VPBROADCASTQ X9, Y7 // Y7 = m2 // 上面三行代码将4个m2加载到Y7寄存器
    MOVQ $0x7f, AX
    MOVQ AX, X9
    VPBROADCASTQ X9, Y8 // Y8 = m；上面三行代码将4个m3加载到Y8寄存器
    VPSRLQ $1, Y0, Y1 // Y1 = x>>1；Y0寄存器上四个uint64数字并行右移1位
    VPAND Y1, Y5, Y1 // Y1 = x>>1&m0；Y1寄存器上四个uint64数字并行与Y5寄存器上的四个m0并行与，结果存到Y1寄存器
    VPAND Y0, Y5, Y2 // Y2 = x&m0
    VPADDQ Y1, Y2, Y0 // x = x>>1&m0 + x&m0
    VPSRLQ $2, Y0, Y1 // Y1 = x>>2
    VPAND Y1, Y6, Y1 // Y1 = x>>2&m1
    VPAND Y0, Y6, Y2 // Y2 = x&m1
    VPADDQ Y1, Y2, Y0 // x = x>>2&m1 + x&m1
    VPSRLQ $4, Y0, Y1 // Y1 = x>>4
    VPAND Y1, Y7, Y1 // Y1 = x>>4&m2
    VPAND Y0, Y7, Y2 // Y2 = x&m2
    VPADDQ Y1, Y2, Y0 // x = x>>2&m2 + x&m2
    VPSRLQ $8, Y0, Y1 // Y1 = x >> 8
    VPADDQ Y1, Y0, Y0 // x += x >> 8
    VPSRLQ $16, Y0, Y1 // Y1 = x >> 16
    VPADDQ Y1, Y0, Y0 // x += x >> 16
    VPSRLQ $32, Y0, Y1 // Y1 = x >> 32
    VPADDQ Y1, Y0, Y0 // x += x >> 32
    VPAND Y0, Y8, Y0 // x & (1<<7-1)
    VMOVDQU Y0, ret+32(FP) // 将结果加载到内存中返回值的位置
    RET

Benchmark

理论上讲如此优化之后我们应该可以获得四倍的性能提升，所以我们写个基准测试验证下：

// 优化之后的并行计算测试
func BenchmarkSimdPopcntQuad(b *testing.B) {
        // 使用随机数防止编译阶段被编译器预先计算出来
	rand.Seed(time.Now().UnixNano())
	nums := [4]uint64{rand.Uint64(), rand.Uint64(), rand.Uint64(), rand.Uint64()}
	for i := 0; i < b.N; i++ {
		SimdPopcntQuad(nums)
	}
}

// 优化之前的顺序计算测试
func BenchmarkSerial(b *testing.B) {
        // 使用随机数防止编译阶段被编译器预先计算出来
	rand.Seed(time.Now().UnixNano())
	nums := [4]uint64{rand.Uint64(), rand.Uint64(), rand.Uint64(), rand.Uint64()}
	for i := 0; i < b.N; i++ {
		serialPopcntQuad(nums)
	}
}

func serialPopcntQuad(nums [4]uint64) [4]uint64 {
	return [4]uint64{uint64(bits.OnesCount64(nums[0])), uint64(bits.OnesCount64(nums[1])), uint64(bits.OnesCount64(nums[2])), uint64(bits.OnesCount64(nums[3]))}
}

运行后结果如下

# go test -bench=. -v
=== RUN   TestSimdPopcntQuad
--- PASS: TestSimdPopcntQuad (0.00s)
goos: linux
goarch: amd64
pkg: github.com/Orlion/popcnt
cpu: Intel Core Processor (Broadwell, no TSX)
BenchmarkSimdPopcntQuad
BenchmarkSimdPopcntQuad-8        3693530               330.8 ns/op
BenchmarkSerial
BenchmarkSerial-8               539924296                2.232 ns/op
PASS
ok      github.com/Orlion/popcnt        2.993s

可以看到优化后的并行计算比原始的顺序计算慢了150倍😭，失败~

3. 分析

虽然优化失败了，但是我们还是要分析复盘下其中的原因，从中汲取一些经验，下面我们从两方面来分析下。

3.1 未优化函数为什么快?

首先我们可以看到未优化的函数serialPopcntQuad计算四个数字竟然只花了2ns，根据Numbers Everyone Should Know一文，访存的时间大概是100ns，这就有点离谱了，计算竟然不从内存加载我们的参数？

下面我们写段main函数，使用随机数来调用下serialPopcntQuad函数，然后反汇编看下汇编代码分析下。

func main() {
	rand.Seed(time.Now().UnixNano())
	nums := [4]uint64{rand.Uint64(), rand.Uint64(), rand.Uint64(), rand.Uint64()}
	results := serialPopcntQuad(nums)
	fmt.Println(results)
}

func serialPopcntQuad(nums [4]uint64) [4]uint64 {
	return [4]uint64{uint64(bits.OnesCount64(nums[0])), uint64(bits.OnesCount64(nums[1])), uint64(bits.OnesCount64(nums[2])), uint64(bits.OnesCount64(nums[3]))}
}

编译后反汇编：

从汇编代码中可以看到在调用bits.OnesCount64之前会判断cpu是否支持popcnt指令，如果支持则使用popcnt指令来计算而不是调用bits.OnesCount64来计算，恰好我机器支持popcnt指令，省略了bits.OnesCount64中的一堆计算，因此计算速度非常快。

3.2 优化后为什么慢?

正如3.1中所提到的，相较于cpu计算，访存的代价是非常高的，大概是100ns，而我们汇编代码中为了使用SIMD指令实现统计算法有大量的访存操作。

受限于本人对汇编掌握程度，上面的汇编代码质量应该是很差的，并不能证明SIMD性能差，可能有性能更高的实现，请各位大佬指点。

而且当前Go汇编在不指定编译参数的情况下只能采用旧函数调用约定，必须采用内存传参，所以导致最终基准测试的结果很差。

4. 收获

这一通瞎折腾虽然最终结果失败，但还是有很多收获的。首先真实的体会到了访存有多慢，所以日后在进行性能优化时就会注意这一点，尽量使代码能命中CPU缓存。

再一个就是之前并没有使用过SIMD指令，也没有接触过这种级别的优化，这次算是入门了。

后端选手，水平有限，各位计算机科学家见笑了。

5. 参考资料

玩转SIMD指令编程

...

阅读全文 »

统计一个数字二进制位1的个数

发布于 2024-01-03

分类计算机体系结构

标签计算机体系结构

标签 Go

最近一个需求需要使用golang实现一个兼容redis的无压缩的bitmap，需要提供一个bitcoun函数来统计这个bitmap中二进制位1的个数，查了一圈并没有找到类似的第三方库，因此决定自己实现一个.（利用一切机会造轮子

1. 问题简化

问题本质实际就是给定一个数字，比如一个二进制数10101101，计算出这个数字中二进制位1的个数，对于10101101这个数字来说它有5个位为1，即：10101101

对于这个问题，最简单的办法就是挨位数，不过这个办法太笨了，没有逼格。

那么有没有银弹呢？答案是肯定的，而且还不止一种。退后，我要开始装逼了

2. 查表法

对于一个8位的数字来说，它只有256个值，因此完全可以预先计算好每个值的二进制位1个个数写入到映射表中，使用时直接查询这张映射表即可。

伪代码如下所示：

var count1map = map[uint8]uint8 {
    0b0000_0000: 0,
    0b0000_0001: 1,
    ...
    0b1111_1111: 8,
}

func bitcount(x uint8) uint8 {
    return count1map[x]
}

3. 移位法

查表法虽然可以应对8位这样值数量有限的数字，但是对于uint64 or int64这样64位的数字来说，它的值数量是非常多的，我们无法在内存中维护这样巨大的映射表，因此不能使用查表法来解决

Golang在bits包中提供一个OnesCount64(x uint64) int的函数，可以计算一个64位数字中二进制为1的个数，其源码如下：

const m0 = 0x5555555555555555 // 01010101 ...
const m1 = 0x3333333333333333 // 00110011 ...
const m2 = 0x0f0f0f0f0f0f0f0f // 00001111 ...
const m3 = 0x00ff00ff00ff00ff // etc.
const m4 = 0x0000ffff0000ffff

func OnesCount64(x uint64) int {
	const m = 1<<64 - 1
	x = x>>1&(m0&m) + x&(m0&m)
	x = x>>2&(m1&m) + x&(m1&m)
	x = (x>>4 + x) & (m2 & m)
	x += x >> 8
	x += x >> 16
	x += x >> 32
	return int(x) & (1<<7 - 1)
}

初看起来是有点懵逼的，一顿位运算操作怎么就能把1的个数算出来了呢？

这段代码注释中标明其来源于Hacker's Delight第5章

骚操作

别着急，我们还是采用自底向上的思想来拆解下。

3.1 2位数字二进制位1的个数

我们先想一下如何计算2位的数字二进制位1的个数，答案是非常简单的：

func OnesCount2(x uint2) int {
    return (x & 0b01) + ((x >> 1) & 0b01)
}

x & 0b01就是求第0位是不是1，((x >> 1) & 0b01)就是求第1位是不是1，加起来就是x这个2位数字二进制位1的个数。

3.2 4位数字二进制位1的个数

对于一个4位数字，如1011，我们先按照3.1中的算法分别求出第3位与第2位即10 和第1位与第0位即11的二进制位1的个数，然后再加起来就得出这个4位数字的二进制位1的个数了。

伪代码如下所示：

func OnesCount4(x uint4) int {
    x = x & 0b0101 + x >> 1 & 0b0101
    return x & 0b0011 + x >> 2 & 0b0011
}

计算过程如图：

3.3 8位数字二进制位1的个数

8位数字计算过程与4位计算过程本质是相同的，都是拆解组合，伪代码如下：

func OnesCount8(x uint8) int {
    x = x & 0b01010101 + x >> 1 & 0b01010101
    x = x & 0b00110011 + x >> 2 & 0b00110011
    return x & 0b00001111 + x >> 4 && 0b00001111
}

计算过程如下：

64位数字重复这个过程即可，回头看golang的代码应该就可以看懂了，这里就不再详细解释了。

另外这个算法过程还可以进一步优化，详细可以参考下：计算汉明权重的SWAR（SIMD within a Register）算法感兴趣的可以研究一下，这里就不赘述了。

4. POPCNT指令

一些较新的CPU上支持POPCNT指令，可以通过硬件直接进行计算，Golang代码示例如下：

main.go文件

package main

import (
    "fmt"
    "math/bits"
    "math/rand"
    "time"
)

func main() {
    rand.Seed(time.Now().Unix())
    for i := 0; i < 100; i++ {
        var num = rand.Uint64()
        if popcnt(num) != bits.OnesCount64(num) {

            panic(fmt.Sprintf("i: %d, popcnt(%b) = %d, bits.OnesCount64(%b) = %d", i, num, popcnt(num), num, bits.OnesCount64(num)))
        }
    }
    fmt.Println("ok")
}

func popcnt(x uint64) int

amd64.s 文件

#include "textflag.h"

TEXT main·popcnt(SB), NOSPLIT, $0-8
    MOVQ x+0(FP), AX // 将参数x移到AX寄存器
    BYTE $0xf3; BYTE $0x48; BYTE $0x0f; BYTE $0xb8; BYTE $0xc0  // 计算二进制X中1的个数，golang编译器不支持POPCNT指令，这行对应于POPCNT AX, AX
    MOVQ AX, ret+8(FP) // 将结果存入ret
    RET

...

阅读全文 »