Cursor – 数据科学

Cursor 通过可复现环境、Notebook 支持和 AI 驱动的代码辅助，为数据科学开发提供一体化工具链。本指南介绍 Python、R 和 SQL 工作流的核心设置范式。

笔记本开发

若要获得完整的笔记本支持，请下载由 ms-toolsai 发布的 Jupyter（id: ms-toolsai.jupyter）扩展。

Cursor 支持在 .ipynb 和 .py 文件中集成执行单元格。Tab、Inline Edit 和 Agents 在笔记本中与在其他代码文件中一样工作。关键功能：

内联单元格执行 可直接在编辑器界面中运行代码
Tab、Inline Edit 和 Agents 都能理解数据科学库，包括 pandas、NumPy、scikit-learn，以及 SQL 魔法命令

数据库集成

可以通过两种主要机制将数据库与 Cursor 集成：MCP 服务器和扩展。

MCP Servers 让你的 Agents 能连接到你的数据库
Extensions 将你的 IDE 更广泛地与数据库集成

通过 MCP

MCP 服务器允许你的 agent 直接对数据库执行查询。这样一来，agent 可以自行决定是否查询数据库、编写合适的查询、运行命令并分析输出，以上都作为一个持续任务的一部分完成。例如，你可以通过将以下 MCP 配置添加到 Cursor，把一个 Postgres 数据库连接到你的 Cursor 实例：

{
  "mcpServers": {
    "postgres": {
      "command": "npx",
      "args": [
        "-y",
        "@modelcontextprotocol/server-postgres",
        "postgresql://localhost/mydb"
      ]
    }
  }
}

想进一步了解 MCP，请查看我们的 MCP 文档。

通过扩展

安装对应数据库的扩展（PostgreSQL、BigQuery、SQLite、Snowflake），即可直接在编辑器中执行查询。这样就不用在不同工具间来回切换，还能获得 AI 对查询优化的辅助。

-- Cursor 会就索引、窗口函数和查询优化给出建议
SELECT
    user_id,
    event_type,
    COUNT(*) as event_count,
    RANK() OVER (PARTITION BY user_id ORDER BY COUNT(*) DESC) as frequency_rank
FROM events
WHERE created_at >= NOW() - INTERVAL '7 days'
GROUP BY user_id, event_type;

使用 Agents 来分析慢查询、给出性能优化建议，或为查询结果生成可视化代码。Cursor 能理解 SQL 上下文，并能根据你的数据结构推荐合适的图表类型。

数据可视化

Cursor 的 AI 助手也覆盖了 Matplotlib、Plotly、Seaborn 等数据可视化库。Agent 能生成可视化代码，帮你快速、轻松地探索数据，同时产出可复现、可分享的成果。

import plotly.express as px
import pandas as pd

# AI 会根据数据列自动推荐合适的图表类型
df = pd.read_csv('sales_data.csv')
fig = px.scatter(df, x='advertising_spend', y='revenue',
                 color='region', size='customer_count',
                 title='各地区营收与广告支出的关系'
fig.show()

常见问题

我可以使用现有的 Jupyter notebooks 吗？ 可以，Cursor 能打开 .ipynb 文件，并支持完整的单元格执行和 AI 补全。 内存放不下的大型数据集怎么处理？ 用 Dask 等分布式计算库，或者通过 Remote-SSH 连接到更大机器上的 Spark 集群。 Cursor 支持 R 和 SQL 文件吗？ 支持。Cursor 为 R 脚本（.R）和 SQL 文件（.sql）提供 AI 辅助和语法高亮。 推荐怎么共享开发环境？ 把 .devcontainer 文件夹提交到版本控制。团队成员打开项目时会自动重建环境。 怎么调试数据处理管道？ 用 Cursor 的集成调试器在 Python 脚本里设置断点，或者用 Agent 分析并逐步解释复杂的数据转换。

环境可复现性

开发容器

开发容器可以帮助你在团队成员与部署环境之间保持一致的运行时和依赖。它们能消除环境特定的 bug，并缩短新成员的上手时间。要使用开发容器，先在代码库根目录创建一个 .devcontainer 文件夹。然后创建 devcontainer.json、Dockerfile 和 requirements.txt 文件。

// .devcontainer/devcontainer.json
{
  "name": "ds-env",
  "build": { "dockerfile": "Dockerfile" },
  "features": {
    "ghcr.io/devcontainers/features/python:1": { "version": "3.11" }
  },
  "postCreateCommand": "pip install -r requirements.txt"
}

# .devcontainer/Dockerfile
FROM mcr.microsoft.com/devcontainers/python:3.11
COPY requirements.txt .
RUN pip install --upgrade pip && \
    pip install -r requirements.txt

# requirements.txt
pandas==2.3.0
numpy
# 添加你项目所需的其他依赖

Cursor 会自动检测到 devcontainer，并提示你在容器内重新打开项目。也可以通过命令面板（Ctrl+Shift+P）手动在容器中重新打开，并搜索 Reopen in Container。开发容器具备以下优势：

依赖隔离，避免项目之间发生冲突
可复现的构建，确保在开发与生产环境中的一致行为
简化上手，让新成员无需手动配置即可立即开始

使用 SSH 进行远程开发

当你的工作需要额外的计算资源、GPU，或访问私有数据集时，可以在保持本地开发环境不变的前提下连接到远程机器。

申请云实例，或访问具备所需资源的本地服务器
将你的代码仓库（连同 .devcontainer 配置）克隆到远程机器
通过 Cursor 连接：Ctrl+Shift+P → “Remote-SSH: Connect to Host”

这种方式既能按需扩展算力，又能保持工具链一致。同一套开发容器配置可在本地与远程环境中通用。

核心

教程

高级

编辑器迁移

语言与框架

数据科学

笔记本开发

数据库集成

通过 MCP

通过扩展

数据可视化

常见问题

环境可复现性

开发容器

使用 SSH 进行远程开发

核心

教程

高级

编辑器迁移

语言与框架

​笔记本开发

​数据库集成

​通过 MCP

​通过扩展

​数据可视化

​常见问题

​环境可复现性

​开发容器

​使用 SSH 进行远程开发

笔记本开发

数据库集成

通过 MCP

通过扩展

数据可视化

常见问题

环境可复现性

开发容器

使用 SSH 进行远程开发