进入刚刚创建的项目内,我们需要【新建数据源】,以供后续探索如何分析数据并制作应用。 数说方舟支持近百种多源异构数据可视化接入,本次将针对常用的【本地上传】方式进行介绍。
进入【数据管理】-【数据地图】页面中,点击左侧栏的【新建】,或者页面中的【新建数据源】。 点击后页面出现新建数据源弹窗,这里我们选择「常用」中的「csv」(与「文件上传」中的「csv」点击效果一致) 选择本地文件(文件下载链接)到上传文件区域,等待文件上传到服务器。
注意!
上传文件仅支持csv文件类型的数据,且支持同时上传5个文件,每个文件大小不超过2GB。
文件的表头字段名含有特殊符号(.)会造成上传失败!
完成数据上传后,自动进入到字段配置。 用户可以手动配置字段类型,也可以支持【导入字段类型】或【复用数据源字段类型】。
- 【导入字段类型】:用户可以基于模板,下载到本地编辑字段类型信息,再导入到平台。匹配上的字段,状态为「已更新」,若未匹配,则保持原有类型。
- 【复用数据源字段类型】:针对项目内已存在数据结构一致的数据源,用户可选择复用该数据源的字段类型信息,匹配上的话,状态为「已更新」,若未匹配,则保持原有类型。
- 【数组分割符】:针对数据类型为数组时,需要配置分隔符,系统基于该符号对上传的内容进行分组标识
在本次上传的文件中,需要对以下字段进行字段类型更新。 我们可以通过搜索框查找字段,将字段类型更新为「数组-字符串」,字符分割符为「竖线 | 」
(这里为什么要这么设置,我们会在步骤三解释)
注意!
系统自动识别的字段类型,是基于抽取5K条数据进行推断,可能存在推断误差。
数据源生成后,字段类型不允许随意修改,若要变更需通过数据处理作业进行类型转换或者重新上传
该步骤用于展示上传文件的数据内容及其配置后的字段信息,让用户可以基于数据内容检查字段类型是否满足要求。
我们可以看下,上一步配置的【笔记里的标签列表】字段内容,原先系统将其识别为长文本
,应该修改为数组
且用竖线分割
,更为精准。
若需要二次修改,可点击字段类型图标进行切换。(切换后,返回上一步,配置依旧生效哦)
该步骤主要用于配置数据源的名称、描述、存在目录、区分大小写配置。
- 区分大小写:默认为关闭状态(不区分大小写),即无论搜索的关键词大小写如何,搜索结果都不受影响,会呈现相同的结果。例如,搜索“apple”、“Apple”、“aPpLe”都会显示相同的结果,因为大小写不影响搜索引擎识别关键词。
- 目录:默认放在桌面,用户可以点击选择存放目录
在该步骤我们采用默认配置即可,直接点击【确定】。接下来我们就耐心等待文件的上传。 等待过程中,你可以看到该数据源,状态显示为紫色,且双击查看其详情出现报错。不用紧张,该数据源还处于上传中。
状态标识 | 状态说明 |
---|---|
灰色 | 数据加载中 |
绿色 | 数据源状态良好 |
黄色 | 数据源状态不佳 |
红色 | 数据源出现问题,无法访问 |
紫色 | 数据源无法访问 |
文件入库成功后,你将收到系统通知。若文件存在异常数据,也会在通知内容中告知。 点击查看通知,可看到文件成功上传且无异常。 双击数据源,即可预览该数据内容。点击右侧栏按钮,可以看到数据量为12092,与我们本地文件的数据量是一致的。
在【选择列】中勾选我们更新过字段类型的字段,可以看到其按数组形式存储与展示。
至此,我们已经成功完成文件上传创建数据源的流程。我们可以基于该数据源,去完成后续的数据处理和分析服务等工作。
该步骤主要针对需要周期性本地上传文件更新数据的场景,非本地上传必要步骤。
注意!
更新数据功能仅针对本地上传的数据源
数据源已完成创建,若需要再上传一份新的数据更新,可以双击查看数据源详情,点击【更新数据】。
Q:为什么本地上传的文件有时候是mysql类型有时候是ES类型
A:系统会自动判断文件数据中有无数组字段,有的话按ES类型入库。若无数组字段且数据量小于5w,则按mysql入库。
文件内容存在与字段类型不一致的情况,该条数据会被抛出,因此可能存在数据量异常,用户可通过数据源详情中的【标签与元信息】查看该数据更新的异常信息。
产品咨询
020-38061725
微信扫描二维码在线咨询