Python之pyarrow:pyarrow的简介、安装、使用方法之详细攻略
Python之pyarrow:pyarrow的简介、安装、使用方法之详细攻略
pyarrow的简介
用于Apache Arrow的Python库。这个库为Arrow c++库提供的功能提供了Python API,以及用于与panda、NumPy和Python生态系统中的其他软件进行箭头集成和互操作性的工具。Apache Arrow是一个用于内存分析的开发平台。它包含一组技术,使大数据系统能够快速处理和移动数据。
1、项目的主要组成部分包括:
- The Arrow Columnar In-Memory Format: a standard and efficient in-memory representation of various datatypes, plain or nested
- The Arrow IPC Format: an efficient serialization of the Arrow format and associated metadata, for communication between processes and heterogeneous environments
- The Arrow Flight RPC protocol: based on the Arrow IPC format, a building block for remote services exchanging Arrow data with application-defined semantics (for example a storage server or a database)
- C++ libraries
- C bindings using GLib
- C# .NET libraries
- Gandiva: an LLVM-based Arrow expression compiler, part of the C++ codebase
- Go libraries
- Java libraries
- JavaScript libraries
- Plasma Object Store: a shared-memory blob store, part of the C++ codebase
- Python libraries
- R libraries
- Ruby libraries
- Rust libraries
2、Arrow特点
- Format: Apache Arrow为平面和层次数据定义了一种与语言无关的柱状内存格式,这种格式的组织用于在现代硬件(如cpu和gpu)上进行高效的分析操作。Arrow内存格式还支持零拷贝读取,用于不需要序列化开销的闪电般的数据访问。
- Libraries: Arrow的库实现了这种格式,并为一系列用例提供了构建块,包括高性能分析。许多流行的项目使用箭头有效地发送柱状数据,或者作为分析引擎的基础。库可用于C、c++、c#、Go、Java、JavaScript、MATLAB、Python、R、Ruby和Rust。请参阅如何安装和启动。
- Ecosystem:Apache Arrow是由开发人员社区创建并为其服务的软件。我们致力于开放、友好的沟通和协商一致的决策。我们的提交者来自不同的组织和背景,我们欢迎所有人与我们一起参与。
pyarrow的安装
pip install --user -i https://pypi.tuna.tsinghua.edu.cn/simple pyarrow
pyarrow的使用方法
Join the mailing list: send an email to dev-subscribe@arrow.apache.org. Share your ideas and use cases for the project.
Follow our activity on JIRA
Learn the format
Contribute code to one of the reference implementations
赞 (0)