去年 11 月写了一篇《由“千万字母表问题”看多范式编程语言》,能够看到这些现代多范式语言的一些优势以及小的不足。而这些语言也在不断演进,时隔半年多我们再重温下相同问题,看看它们的改进成果。

原题目是瓜哥(@2gua)去年夏天在微博上出的一个题目

【来做题】功能实现倒是很简单~ 用你熟悉的语言,统计一个字符串abcdefghijklmnopqrstuvwxyz...abcdefghijklmnopqrstuvwxyz(1千万个a-z,不可直接a=1千万......) 中每个字母的个数,最后输出类似图示。要求除了更好的方式(如更加Pythonic的方式),还要计算越快越好,并打印出代码执行时间(打印效果类似图示)

上次以 Ruby 版为基准,对比了 Rust、Kotlin、Julia 与 Java 8 版的代码与速度。这次在上次的基础上增加了 Swift 语言版,并将所有语言都升级到了最新稳定版。 测试环境使用与上次相同的虚拟机(4 核 4G、操作系统为 Ubuntu 14 x64),另外追加了 AWS 新加坡区的 EC2 测试环境,配置是 c4.xlarge(4 核 7.5G)、操作系统为 Ubuntu 16 x64,AWS EC2 的波动更小、性能也更好一些。

本次测试仍采用运行多次取中位数的方式,数据如下:

timecmp

这次依然用 Ruby 版代码作为基准,是因为它的速度相当快,代码相对于上次无调整,参见上篇。各语言新版本在速度上都有明显提升。

Julia

从上面速度数据看,Julia 版代码还是比较慢,但这次不是垫底,并且相对于上次的速度提升非常显著,其代码依然是最简洁的:

function f()
       s = repeat(join('a':'z'), 1000_0000)
       Dict(c=>count(i->i==c, s) for c in 'a':'z')
end

@time print(f())

与上一版代码相比,构造字典的列表推导语法变了,需要用 Dict() 显式构造字典,否则会出现警告。其代码差异见下图:

julia_diff.png

上篇中提到了对于 Julia 的关键是性能改善。目前看来它的进步非常大,就这两次评估而言,性能上有数量级的提升,其速度提升超过 10 倍

Rust

Rust 版代码变化很大。上篇中提到为了实现对数级重复写了不少冤枉代码,现在不用了,因为 Rust 在 1.16 起(这次用的是 1.17)标准库就自带字符串重复了,这一版用的代码如下:

// 编译方式 rustc -C opt-level=3 z1.rs
use std::time::SystemTime;

fn main() {
    let now = SystemTime::now();
    let letters: String = (b'a'..b'z'+1).map(|c| c as char).collect();
    let repeated = letters.repeat(1000_0000);
    for b in letters.as_bytes() {
        print!("{}: {}, ", *b as char, repeated.as_bytes().iter().filter(|&x| x==b).count());
    }
    let elapsed = now.elapsed().unwrap();
    println!("\ntime: {}.{:09}s", elapsed.as_secs(), elapsed.subsec_nanos());
}

与上一版的代码差异如下:

rust_diff.png

如图所示,新版 Rust 对高效字符串重复的支持,让新版代码相对于旧版省去了一大段自写代码。另外本次测试比上次快了很多,说明 Rust 新版在性能上也已提升不少

Java 8

Java 版代码无变化,新的 Java 稳定版没有本质改动。但由于其他语言的进步,上次最快的代码如今在速度上已经平淡无奇了。

Kotlin

上篇中提到 Kotlin 因为缺少 groupingBy()counting() 这样的 Collector,所以性能不及 Java 8。新版的性能提升上来了,让我们看看新版的代码吧:

import kotlin.system.measureTimeMillis

fun main(args : Array<String>) { 
    print(measureTimeMillis {
        val letters = ('a'..'z').joinToString(separator="")
        val repeated = letters.repeat(1000_0000)
        println(repeated.groupingBy { it }.eachCount())
    } / 1000.0)
    println('s')
}

与上一版的代码差异如下:

kotlin_diff.png

看到了什么?没错!groupingByeachCount,正是上篇中所期待的功能!另外还有一小处改动是 Kotlin 现在也支持数字字面值分隔符了。 现在 Kotlin 有了与 Java 8 同样自然的方式,代码还简洁很多倍,替代 Java 的潜质更加明显了。如今 Kotlin 已经成为 Android 的官方开发语言,其发展势头越来越好。

Swift

这次还引入了同为现代多范式语言的 Swift,最近《Swift is like Kotlin》被大家疯狂转载,两门语言确实很像,就本篇讨论问题来看简洁性虽不及 Kotlin 却也还不错。而这次测试中它的速度垫底倒是没想到的。

// 编译方式 swiftc -O y1.swift
import Foundation

let date = Date()

let letters = (0..<26).map({String(UnicodeScalar(UnicodeScalar("a").value + $0)!)}).joined()
let repeated = String(repeating: letters, count: 1000_0000)

for c in letters.utf8 {
    print(Character(UnicodeScalar(c)), repeated.utf8.filter{$0 == c}.count, separator:": ", terminator:", ")
}

let elapseTimeInSeconds = Date().timeIntervalSince(date as Date)
print()
print(elapseTimeInSeconds)

上面的 Swift 版代码的看起来与 Rust 版更接近一些,这并不奇怪,因为这两门语言在发展过程中存在不少相互借鉴之处,另外还可以回顾下年初 Swift 之父去特斯拉、Rust 创始人加入 Swift 的消息。

从上面代码和本次测试来看,Swift 的性能及其字符处理的简洁性方面都还有提升的空间。

小结

这一版测试结果非常令人欣慰,甚至可以说惊喜。Rust、Julia、Kotlin 在性能上均有提升,而且都达到了我在写上篇时的期望,分别是: - Julia 的性能提升了一个数量级。 - Rust 支持高效字符串重复。 - Kotlin 支持 groupingByeachCount 以及数字字面值分隔符。

另外 Swift 4 也快正式发布了,期待它更好表现。Rust、Julia、Kotlin、Swift 这些语言都在快速发展中,相信未来会属于这些现代多范式语言,跟紧它们的步伐吧。

本文也发在我的个人博客上:http://www.wking-china.com/xpjylc/lang/2017/06/05/10m-letters-2.html