SQL控制台

  • HuggingFace
  • 2024-11-05 00:13:06
Hugging Face 推出数据集 SQL 控制台!

随着 Hugging Face 上的数据集数量不断攀升,如何便捷地查询、过滤和发现数据集成为用户的新需求。为此,我们推出了全新的 SQL 控制台,让用户可以直接在 Hugging Face Hub 上使用 SQL 查询数据集!

SQL 控制台亮点
本地化操作:SQL 控制台通过 DuckDB WASM 完全在浏览器中运行,无需依赖后端服务。
丰富的 SQL 语法支持:DuckDB 提供丰富的 SQL 语法,支持正则、列表、JSON 和嵌入查询,体验与 PostgreSQL 类似。
结果导出和共享:查询结果可以导出为 Parquet 文件,并且可以通过链接分享结果。
数据集如何转换为 Parquet 格式?
大多数 Hugging Face 数据集存储为高效的 Parquet 格式,以便快速查询。若数据集非 Parquet 格式,前 5GB 数据将自动转换为 Parquet,让您在 SQL 控制台中直接使用,查询体验流畅高效。

DuckDB WASM
DuckDB WASM 是 SQL 控制台的引擎,它可以直接在浏览器中运行,即使面对大型数据集也能轻松应对。尽管有 3GB 的内存限制和少量功能差异,DuckDB WASM 仍然支持大部分查询,非常适合 Hugging Face 用户进行本地数据探索和处理。
例如,您可以轻松将 Alpaca 数据集转换为对话格式,从而为微调大语言模型 (LLM) 提供支持。无需 Python 预处理,仅需 30 秒就能完成转换!

实用场景:快速高效的数据分析
SQL 控制台还适用于其他分析场景,例如过滤高质量的推理数据、提取特定函数调用的样本等。我们还推出了 SQL Snippets 空间,展示更多 SQL 控制台的强大用例,帮助您快速上手!

欢迎加入我们的中文社区:Chinese LLMs on Hugging Face,一起探索更多 SQL 控制台的精彩用法!
#AI创造营#数据集分析SQL控制台
SQL控制台