SeaweedFS 是一个独立的 Apache 许可的开源项目,其持续开发完全依赖于这些令人敬佩的支持者的支持。如果您想让 SeaweedFS 变得更加强大,请考虑加入我们的<a href="https://www.patreon.com/seaweedfs">Patreon 赞助者</a>。
您的支持将得到我和其他支持者的真诚感谢!
docker run -p 8333:8333 chrislusf/seaweedfs server -s3
weed
或 weed.exe
。或者运行 go install github.com/seaweedfs/seaweedfs/weed@latest
。weed server -dir=/some/data/dir -s3
启动一个主服务器、一个卷服务器、一个 filer 和一个 S3 网关。此外,要增加容量,只需通过在本地或不同的机器上运行 weed volume -dir="/some/data/dir2" -mserver="<master_host>:9333" -port=8081
来添加更多卷服务器即可。就是这么简单!
SeaweedFS 是一个简单且高度可扩展的分布式文件系统。它有两个目标:
SeaweedFS 最初是作为一个对象存储来高效处理小文件。 与在中央主服务器中管理所有文件元数据不同, 中央主服务器只管理卷服务器上的卷, 而这些卷服务器管理文件及其元数据。 这减轻了中央主服务器的并发压力,并将文件元数据分散到卷服务器中, 实现更快的文件访问(O(1),通常只需一次磁盘读取操作)。
每个文件的元数据只需要 40 字节的磁盘存储开销。 它非常简单,只需 O(1) 次磁盘读取,欢迎您用实际用例来挑战其性能。
SeaweedFS 最初是通过实现 Facebook 的 Haystack 设计论文 开始的。 此外,SeaweedFS 还借鉴了 f4:Facebook 的温 BLOB 存储系统 中的想法实 现了纠删码,并与 Facebook 的 Tectonic 文件系统 有很多相似之处。
在对象存储之上,可选的 Filer 可以支持目录和 POSIX 属性。 Filer 是一个独立的线性可扩展无状态服务器,具有可定制的元数据存储, 例如 MySql、Postgres、Redis、Cassandra、HBase、Mongodb、Elastic Search、LevelDB、RocksDB、Sqlite、MemSql、TiDB、Etcd、CockroachDB、YDB 等。
对于任何分布式键值存储,大型值可以被卸载到 SeaweedFS。 凭借快速的访问速度和线性可扩展的容量, SeaweedFS 可以作为分布式键-大值存储使用。 SeaweedFS 可以无缝集成云存储。本地集群存储热数据,云端存储温数据,访问时间复杂度为 O(1),SeaweedFS 既能实现快速本地访问,又能获得弹性云存储容量。更重要的是,云存储 API 调用成本降到最低。比直接使用云存储更快更便宜!
默认情况下,主节点运行在 9333 端口,卷节点运行在 8080 端口。 让我们启动一个主节点,以及两个分别运行在 8080 和 8081 端口的卷节点。理想情况下,它们应该在不同的机器上启动。我们将使用 localhost 作为示例。
SeaweedFS 使用 HTTP REST 操作进行读取、写入和删除。响应以 JSON 或 JSONP 格式返回。
> ./weed master
> weed volume -dir="/tmp/data1" -max=5 -mserver="localhost:9333" -port=8080 &
> weed volume -dir="/tmp/data2" -max=10 -mserver="localhost:9333" -port=8081 &
要上传文件:首先,向 /dir/assign
发送 HTTP POST、PUT 或 GET 请求以获取 fid
和卷服务器 URL:
> curl http://localhost:9333/dir/assign
{"count":1,"fid":"3,01637037d6","url":"127.0.0.1:8080","publicUrl":"localhost:8080"}
其次,要存储文件内容,向响应中的 url + '/' + fid
发送 HTTP 多部分 POST 请求:
> curl -F file=@/home/chris/myphoto.jpg http://127.0.0.1:8080/3,01637037d6
{"name":"myphoto.jpg","size":43234,"eTag":"1cc0118e"}
要更新,请发送另一个带有更新文件内容的 POST 请求。
要删除,向相同的 url + '/' + fid
URL 发送 HTTP DELETE 请求:
> curl -X DELETE http://127.0.0.1:8080/3,01637037d6
现在,您可以将 fid
(在本例中为 3,01637037d6)保存到数据库字段中。
开头的数字 3 表示卷 ID。逗号后是一个文件键 01 和一个文件 cookie 637037d6。
卷 ID 是一个无符号 32 位整数。文件键是一个无符号 64 位整数。文件 cookie 是一个无符号 32 位整数,用于防止 URL 猜测。
文件键和文件 cookie 都以十六进制编码。您可以以自己的格式存储 <卷 ID,文件键,文件 cookie> 元组,或者简单地将 fid
存储为字符串。
如果存储为字符串,理论上您需要 8+1+16+8=33 个字节。char(33) 应该足够,如果不是绰绰有余的话,因为大多数用途不需要 2^32 个卷。
如果空间确实是一个问题,您可以以自己的格式存储文件 ID。您需要一个 4 字节整数用于卷 ID,8 字节长数字用于文件键,以及一个 4 字节整数用于文件 cookie。因此,16 字节绰绰有余。
以下是如何渲染 URL 的示例。
首先通过文件的 volumeId 查找卷服务器的 URL:
> curl http://localhost:9333/dir/lookup?volumeId=3
{"volumeId":"3","locations":[{"publicUrl":"localhost:8080","url":"localhost:8080"}]}
由于(通常)卷服务器不会太多,而且卷不经常移动,因此大多数时候您可以缓存结果。根据复制类型,一个卷可能有多个副本位置。只需随机选择一个位置进行读取。
现在您可以使用公共 URL,渲染 URL 或直接通过 URL 从卷服务器读取:
http://localhost:8080/3,01637037d6.jpg
请注意,我们在这里添加了文件扩展名".jpg"。这是可选的,只是客户端指定文件内容类型的一种方式。
如果您想要一个更好看的 URL,可以使用以下替代 URL 格式之一:
http://localhost:8080/3/01637037d6/my_preferred_name.jpg
http://localhost:8080/3/01637037d6.jpg
http://localhost:8080/3,01637037d6.jpg
http://localhost:8080/3/01637037d6
http://localhost:8080/3,01637037d6
如果你想获取图片的缩放版本,可以添加一些参数:
http://localhost:8080/3/01637037d6.jpg?height=200&width=200
http://localhost:8080/3/01637037d6.jpg?height=200&width=200&mode=fit
http://localhost:8080/3/01637037d6.jpg?height=200&width=200&mode=fill
SeaweedFS在卷级别应用复制策略。因此,当你获取文件ID时,可以指定复制策略。例如:
curl http://localhost:9333/dir/assign?replication=001
复制参数选项如下:
000: 不复制
001: 在同一机架上复制一次
010: 在不同机架但相同数据中心复制一次
100: 在不同数据中心复制一次
200: 在两个不同的数据中心复制两次
110: 在不同机架复制一次 ,在不同数据中心复制一次
关于复制的更多细节可以在wiki上找到。
你也可以在启动主服务器时设置默认的复制策略。
卷服务器可以使用特定的数据中心名称启动:
weed volume -dir=/tmp/1 -port=8080 -dataCenter=dc1
weed volume -dir=/tmp/2 -port=8081 -dataCenter=dc2
在请求文件键时,可选的"dataCenter"参数可以将分配的卷限制在特定的数据中心。例如,这指定分配的卷应限制在'dc1':
http://localhost:9333/dir/assign?dataCenter=dc1
通常分布式文件系统将每个文件分割成块,中央主服务器保存文件名、块索引到块句柄的映射,以及每个块服务器拥有哪些块。
主要缺点是中央主服务器无法有效处理许多小文件,而且由于所有读取请求都需要通过块主服务器,因此可能无法很好地扩展以支持多个并发用户。
SeaweedFS不管理块,而是在主服务器中管理数据卷。每个数据卷大小为32GB,可以容纳大量文件。每个存储节点可以有多个数据卷。因此主节点只需要存储关于卷的元数据,这是相当少量的数据,而且通常是稳定的。
实际的文 件元数据存储在卷服务器上的每个卷中。由于每个卷服务器只管理自己磁盘上文件的元数据,每个文件只需16字节,所有文件访问都可以直接从内存读取文件元数据,只需要一次磁盘操作来实际读取文件数据。
相比之下,考虑到Linux中的xfs inode结构是536字节。
架构相当简单。实际数据存储在存储节点的卷中。一个卷服务器可以有多个卷,并且可以支持基本身份验证的读写访问。
所有卷由主服务器管理。主服务器包含卷id到卷服务器的映射。这是相当静态的信息,可以很容易地被缓存。
在每个写请求上,主服务器还会生成一个文件键,这是一个不断增长的64位无符号整数。由于写请求通常不如读请求频繁,一个主服务器应该能够很好地处理并发。
当客户端发送写请求时,主服务器返回文件的(卷id、文件键、文件cookie、卷节点URL)。然后客户端联系卷节点并POST文件内容。
当客户端需要基于(卷id、文件键、文件cookie)读取文件时,它通过卷id向主服务器询问(卷节点URL、卷节点公共URL),或者从缓存中检索这些信息。然后客户端可以GET内容,或者只在网页上渲染URL并让浏览器获取内容。
请参阅示例以了解写入-读取过程的详细信息。
在当前实现中,每个卷可以容纳32 gibibytes (32GiB或8x2^32字节)。这是因为我们将内容对齐到8字节。我们可以很容易地将其增加到64GiB、128GiB或更多,只需更改2行代码,代价是由于对齐而浪费一些填充空间。
可以有4 gibibytes (4GiB或2^32字节)的卷。因此总系统大小为8 x 4GiB x 4GiB,即128 exbibytes (128EiB或2^67字节)。
每个单独文件的大小限制为卷大小。
存储在卷服务器上的所有文 件元信息可以从内存中读取,无需磁盘访问。每个文件只占用16字节的映射条目<64位键, 32位偏移量, 32位大小>。当然,每个映射条目都有自己的映射空间成本。但通常磁盘空间比内存先用完。
本地卷服务器速度更快,而云存储具有弹性容量,如果不经常访问实际上更具成本效益(通常上传免费,但访问相对昂贵)。凭借追加只写结构和O(1)访问时间,SeaweedFS可以通过将温数据卸载到云来利用本地和云存储的优势。
通常热数据是新的,温数据是旧的。SeaweedFS将新创建的卷放在本地服务器上,并可选择将较旧的卷上传到云。如果较旧的数据访问频率较低,这实际上为你提供了无限容量的有限本地服务器,而且对新数据仍然很快。
凭借O(1)访问时间,网络延迟成本保持在最低水平。
如果热/温数据按20/80分割,使用20台服务器,你可以实现100台服务器的存储容量。这节省了80%的成本!或者你也可以重新利用这80台服务器来存储新数据,获得5倍的存储吞吐量。
大多数其他分布式文件系统似乎比必要的更复杂。
SeaweedFS旨在快速简单,无论是在设置还是操作方面。如果你读到这里还不理解它是如何工作的,那我们就失败了!请提出任何问题或更新此文件以澄清。
SeaweedFS在不断前进。其他系统也是如此。这些比较可能很快就过时了。请帮助保持它们更新。
HDFS对每个文件使用块方法,非常适合存储大文件。
SeaweedFS非常适合快速并发地提供相对较小的文件。
SeaweedFS还可以通过将超大文件分割成可管理的数据块来存储,并将数据块的文件ID存储到 元数据块中。这由"weed upload/download"工具管理,weed主服务器或卷服务器对此不知情。
架构大多相同。SeaweedFS旨在快速存储和读取文件,具有简单和扁平的架构。主要区别是:
GlusterFS将文件(包括目录和内容)存储在可配置的称为"砖块"的卷中。
GlusterFS将路径和文件名哈希成ID,分配给虚拟卷,然后映射到"砖块"。
MooseFS选择忽视小文件问题。根据MooseFS 3.0手册,"即使是小文件也会占用64KiB,另外还有4KiB用于校验和,1KiB用于头部",因为它"最初设计用于存储大量(如数千个)非常大的文件"。
MooseFS主服务器将所有元数据保存在内存中。这与HDFS namenode存在相同的问题。
Ceph可以设置成类似SeaweedFS的键值存储。它更加复杂,需要支持上层结构。这里有一个更详细的比较
SeaweedFS有一个集中式的主服务器组来查找空闲卷,而Ceph使用哈希和元数据服务器来定位对象。有一个集中式主服务器使得编码和管理变得容易。
Ceph和SeaweedFS一样,都基于对象存储RADOS。Ceph相当复杂,评价不一。
Ceph使用CRUSH哈希自动管理数据放置,这对定位数据很有效。但数据必须按照CRUSH算法放置。任何错误配置都会导致数据丢失。拓扑变化,如增加新服务器以增加容量,将导致数据迁移,产生高IO成本以适应CRUSH算法。SeaweedFS通过将数据分配给任何可写卷来放置数据。如果写入一个卷失败,只需选择另一个卷写入。增加更多卷也同样简单。
SeaweedFS针对小文件进行了优化。小文件作为一个连续的内容块存储,文件之间最多有8个未使用字节。小文件访问是O(1)磁盘读取。
SeaweedFS Filer使用现成的存储系统,如MySQL、Postgres、Sqlite、MongoDB、Redis、Elastic Search、Cassandra、HBase、MemSQL、TiDB、CockroachDB、Etcd、YDB来管理文件目录。这些存储系统已经过验证,可扩展,更易于管理。
SeaweedFS | 相当于Ceph中的 | 优势 |
---|---|---|
Master | MDS | 更简单 |
Volume | OSD | 针对小文件优化 |
Filer | Ceph FS | 线性可扩展,可定制,O(1)或O(logN) |
MinIO紧密遵循AWS S3,非常适合S3 API测试。它有良好的UI、策略、版本控制等。SeaweedFS正在努力赶上这一点。未来也可能将MinIO作为SeaweedFS前端的网关。
MinIO的元数据存储在简单的文件中。每次文件写入都会引发对应元数据文件的额外写入。
MinIO没有针对大量小文件进行优化。文件按原样存储在本地磁盘上。 再加上额外的元数据文件和纠删码分片,这只会放大LOSF(大量小文件)问题。
MinIO读取一个文件需要多次磁盘IO。SeaweedFS即使对于纠删码文件也只需O(1)次磁盘读取。
MinIO全时间使用纠删码。SeaweedFS对热数据使用复制以获得更快的速度,并可选择对温数据应用纠删码。
MinIO不支持类POSIX的API。
MinIO对存储布局有特定要求。调整容量不够灵活。在SeaweedFS中,只需启动一个指向主服务器的卷服务器即可。就这么简单。
这是一个非常令人兴奋的项目!我们需要帮助者和支持!
针对不熟悉 golang 的用户的安装指南