Lance是一种为机器学习工作流和数据集优化的现代列式数据格式。它具有以下主要特性:
Lance特别适合以下场景:
使用pip安装预览版:
pip install --pre --extra-index-url https://pypi.fury.io/lancedb/ pylance
import lance import pandas as pd import pyarrow as pa import pyarrow.dataset # 创建示例数据 df = pd.DataFrame({"a": [5], "b": [10]}) uri = "/tmp/test.parquet" tbl = pa.Table.from_pandas(df) pa.dataset.write_dataset(tbl, uri, format='parquet') # 转换为Lance格式 parquet = pa.dataset.dataset(uri, format='parquet') lance.write_dataset(parquet, "/tmp/test.lance")
dataset = lance.dataset("/tmp/test.lance") assert isinstance(dataset, pa.dataset.Dataset) # Pandas df = dataset.to_table().to_pandas() df # DuckDB import duckdb duckdb.query("SELECT * FROM dataset LIMIT 10").to_df()
Lance正在积极开发中,欢迎加入社区,共同推动这个强大的机器学习数据格式工具的发展!