OpenRefine提供数据分析整理功能,可以将本地的数据和网络的数据添加到软件整理,可以在软件配置数据解析方式,可以将原始混乱的数据重新解析到json、解析到Excel、解析到PDF、解析到xml等类型的文件,从而解决数据混乱的问题,主要用于处理各种混乱数据,软件在web上运行,您可以加载本地的数据处理,也可以将L数据导入到软件处理,也支持连接到远程的数据库读取来源内容,让用户可以分析更多类型的数据,新版添加了SQLite导入器,方便加载数据库到软件分析,创建了一个新菜单项,以从对帐列中提取实体标识符,现在可以在自定义表格导出器中引用所有单元格值!
OpenRefine软件功能
OpenRefine(以前是Google Refine)是处理杂乱数据的强大工具:清除数据;将其从一种格式转换为另一种格式;并通过网络服务和外部数据进行扩展。
1、探索数据
OpenRefine可以帮助您轻松浏览大型数据集
2、清理和转换数据
3、核对并匹配数据
OpenRefine可用于通过各种Web服务链接和扩展数据集。一些服务还允许OpenRefine将您清除的数据上传到数据库,例如Wikidata。。Wiki上有越来越多的扩展和插件列表 。
4、导入各种格式的数据
5、在几秒钟内浏览数据集
6、应用基本和高级单元转换
7、处理包含多个值的单元格
8、在数据集之间创建即时链接
9、使用正则表达式轻松过滤和分区数据
10、在全文字段上使用命名实体提取以自动识别主题
11、使用通用优化表达语言执行高级数据作
OpenRefine软件特色
OpenRefine是用于处理混乱数据的强大工具。使用它可以提高数据的一致,将其链接到Wikidata等数据注册表,用其他来源的数据进行扩充,将其转换为其他工具可以使用的不同格式,并将其贡献回原始来源。OpenRefine不是Web服务,而是在您自己的计算机上运行的桌面应用程序,因此您可以私密地处理敏感数据。
OpenRefine最初由Metaweb Technologies,Inc .开发为“ Freebase Gdworks” 。Metaweb于2010年7月被Google收购 ,他们将产品重命名为Google Refine。2012年10月,该产品在过渡到社区支持的项目后被重命名为OpenRefine。
从计算机上的一个或多个文件导入数据
从网络上的一个或多个链接导入数据
通过粘贴剪贴板中的文本导入数据
从数据库(使用SQL)导入数据,以及
从Google云端硬盘导入一个或多个表格。
从这些来源,您可以加载以下任何文件格式:
逗号分隔值(CSV)或文本分隔值(TSV)
Text files
Fixed-width columns
ON
XML
OpenDocument spreadsheet (ODS)
Excel spreadsheet (XLS or XLSX)
PC-Axis (PX)
MARC
RDF data (ON-LD, N3, N-Tples, Turtle, RDF/XML)
Wikitext
OpenRefine使用说明
1、打开OpenRefine会自动分析电脑的数据
2、如图所示,这里是分析界面,分析完毕会打开网页界面
3、通过导入数据创建项目。我可以导入哪些数据文件?
支持TSV,CSV,* SV,Excel(.xls和.xlsx),ON,XML,RDF as XML和Google Data文档。可以使用OpenRefine扩展添加对其他格式的支持。
4、选择本地的文件处理,将你需要整理的文件添加到软件
5、如图所示,直接从本地加载需要整理的文件,可以添加多种资源
6、支持网络数据整理,可以输入一个或多个指向要下载的数据的网址(L):
7、也可以将你复制的数据添加到软件整理,从剪贴板粘贴数据:
8、提示数据库加载功能,可以在软件分析远程数据的数据
9、支持通过L导入公共的Google Spreadsheet:
10、提示上传资源过程,等待软件将您的数据加载到分析界面
11、处理界面如图所示,可以勾选全部文件处理,可以在右上角配置解析选项
12、可以建立专案分析文件,等待软件建立专案完毕