外包数据清理平台 CrowdFlower 调查指出,数据科学家有 60% 时间花在清理数据,而非真正数据分析。
就算所有企业都了解数据驱动(Data-Driven)的重要性,数据处理仍是无可避免的苦工。
新创公司 Numbers Station 把近来火热的 AI 运用于数据处理,使用者只要输入一句话,即可自动产生 SQL 语句。
从庞大数据库获取数据。如某产品月销量、本季营业额前三产品,还能直接建立 AI模型,连不懂编程语言的工作者也能使用,3月刚获 1,250 万美元 A 轮融资。
Numbers Station 期望使数据科学家专注最重要的事
Numbers Station 是由史丹佛大学博士 Chris Aberger、Ines Chami、Sen Wu及副教授Chris Ré共同创办。
Numbers Station 董事长 Chris Aberger 说:我们看到大多数 AI 人才专注销售、图片生成功能,少有专注处理庞杂数据格式、数据前清理,但这仍是巨大的企业问题和企业需求。
在数据分析之前,如果没有清理干净的数据,就难以生成有正确见解的洞察,也就是常见的“垃圾进、垃圾出”(Garbage in, garbage out)。
如果太多原始数据错误、重复或缺失,尚未清理前便建立 AI 模型,会降低 A I模型的准确率。不过因数据庞大、来源多样,使数据清洗一直相当困难。
Chris Aberger 指出,数据分析、清理能力需要一定程度门槛,因此数据往往只是部分人掌握,不论初阶数据存取或 A I模型,都仰赖这少数人。我们想让数据科学家花更多时间在洞察数据,花更少时间在数据清理。
Numbers Station 让人人都能写 SQL、建立 AI 模型
2021年 Numbers Station 成立,专门提供生成式 AI 服务,为数据科学家省去重复又耗时的数据清理、重复数据删除、正常化(Normalization)等,但目前仅供 SQL 语言。
Numbers Station 的目标简单来说,就是让清洗数据不再困难,也不再限于有专业知识的人。第一是提高效率,让数据科学家专注更重要的工作,如解释数据、制定决策;二是提高数据品质,通过 AI 自动纠正并辨识问题;三是数据存取权民主化,让所有人皆能获取数据、建立AI模型。
为了达成上述目标,Numbers Station 产品提供三大服务加速数据清洗、存取与使用:
自动生成 SQL 语句
SQL 语言大多用于数据库查询,如客户订单、销售趋势等,借助 Numbers Station,使用者不用学习 SQL 语言,只要输入口语化指令,例如在 A 数据表寻找价格大于1,000的商品,即可得到 SQL 语句,直接获取需要的数据。
自动建立 AI 模型
Numbers Station 也能自动建立 AI 模型,以客户评论为例,使用者只要输入一句话,例如,这些顾客最喜欢产品哪个方面?如价格、尺寸合适度、风格等。
Numbers Station 就会自动为数据贴上标签,接着只需检验标签是否正确,回馈并修正,即可建立 AI 模型。
自动合并数据库
由于公司多个资料库可能散布不同平台,Numbers Station 能直接将SAP、Salesforce、Snowflake 等数据合并。
以 Numbers Station 企业客户来说,拥有两个客户关系管理系统(CRM),各自管理线上与实体门市顾客,两边数据各自独立。为了得知顾客线上、实体消费情形,企业希望两边数据合并,让销售及业务团队追踪消费者购物过程。
但困难的是,不同实体门市数据杂乱,出现许多缺省值、格式错误,导致数据整并需耗费许多精力,最后使用 Numbers Station 后,两边数据匹配率 98%,工作速度提升 10 倍,为数据分析团队大幅节省时间成本。
加入自身专业才是成功关键
3 月 Numbers Station 刚获 1,250 万美元 A 轮募资,由 Madrona 领投,包括 Norwest Venture Partners、Factory 等其他投资人。
Madrona 投资人 Tim Porter 和 Jon Turow说 ,投资 Numbers Station 原因是团队成员背景有技术实力,可为更多企业导入 AI,降低技术使用门槛。
Numbers Station 董事长 Chris Aberger 过去就在美国人工只能独角兽 SambaNova Systems 领导机器学习团队。
数据视觉化企业 Tableau 的前董事长 Mark Nelson 也发表看法:Numbers Station 正在解决数据业几十年来挑战,其平台和底层 AI 技术为现代数据工作带来根本性的转变。
现行许多公司使用 OpenAI 的 ChatGPT 模型打造产品,Chris Aberger 也提出相应看法。在他看来,由于 ChatGPT 仅抓取网络数据,无法涵括所有知识专业。
仅能达到及格水准,因此需要微调才能做到近满分,使产品差异化。真正重要的是,这些模型哪些地方应用 AI 专业知识,使它们在特定组织任务表现良好。