PySpark教程 (一)概述pyspark

作者 : admin 本文共631个字,预计阅读时间需要2分钟 发布时间: 2024-06-5 共2人阅读

简介

PySpark 是 Apache Spark 的 Python API。它允许您在分布式环境中使用 Python 执行实时、大规模数据处理。PySpark 提供了一个交互式的 PySpark shell,您可以在其中分析数据。

PySpark 将 Python 的易用性与 Apache Spark 的强大功能结合起来,使熟悉 Python 的用户能够处理和分析任意规模的数据。

PySpark 支持 Spark 的所有功能,例如 Spark SQL、DataFrames、结构化流处理、机器学习(MLlib)和 Spark Core。

PySpark 概述

日期:2024年2月24日 版本:master

有用链接:

  • Live Notebook
  • GitHub
  • Issues
  • Examples
  • Community

快速入门

  1. 安装 PySpark

    • 可以通过 pip 安装 PySpark:
      pip install pyspark
      
  2. 启动 PySpark Shell

    • 安装完成后,可以通过以下命令启动 PySpark Shell:
      pyspark
      
  3. 简单的 DataFrame 操作

    from pyspark.sql import SparkSession
    
    spark = SparkSession.builder.appName("example").getOrCreate()
    
    # 创建 DataFrame
    data = [("Alice", 34), ("Bob", 45), ("Cathy", 29)]
    df = spark.createDataFrame(data, ["Name", "Age"])
    
    # 显示 DataFr
本站无任何商业行为
个人在线分享 » PySpark教程 (一)概述pyspark
E-->