捕获和存储原始数据是任何研究过程中的第一个关键步骤。
纸质时代已成为过去
管理实验室数据的技术发生了翻天覆地变化 — 从手写笔记和电泳凝胶照片发展到由连接仪器提供的数字服务器。这不再是您的实验室是否会进行数字化转型的问题,而是将在多长时间内实现数字化。
然而,数据管理的基本概念基本上没有改变。从原始数据和图像到研究人员的观察和注释,所有内容都进入某种形式的实验室“笔记本”,作为事实、统计数据、结果和其他项目信息的单一中央存储库。这是实验工作和结果的记录,通常包含实验方法、原始数据,甚至是将结果置于上下文中所需的元数据。
正式的元数据、实验测试参数或控制条件通常辅以研究人员的观察和注释,以促进独特的数据分析和解释。这种组合的多源数据往往会催生新的想法和发现。
有效地捕获和编目这些信息对于研究人员和其他试图复制工作并从结果中提取知识的人至关重要。
电子笔记本的未来
今天的研究人员依靠电子实验室笔记本(ELN),而不是螺旋装订的纸张。事实上,数字化实践现在在行业中非常普遍,以至于许多仪器更有可能拥有光纤电缆、USB 端口和复杂的图形,而不是打印机或简单的数字读数。单单就跟上现代实验室生成和收集的大量数据方面,ELN 已经变得至关重要。这些数据集比过去呈指数级增长,移动速度更快,并且可以在全球网络之间交换。
因此,需要强大的计算资源(通常是自动化的)来管理、分析,并将发现转化为实用的见解,更不用说这些产品的适销对路。这个过程经常被比作大海捞针 — 只是这个“大海捞针”可能如一个或多个星系般大小。
多源数据的挑战
当捕获和比较来自不同来源的数据时,通常会产生新的想法和发现。但并非每个来源都以相同的方式处理数据,不同类型的数据需要不同的编目和数字化策略,然后才能通过当今最复杂的工具进行分析。
典型的 ELN 将用户界面与集中式数据库和文件存储相结合。如果操作得当,该系统可以以简化的数字格式无缝存储实验室观察结果、实验结果、执行工作流程、元数据等。目标是使 ELN 中的数据分析尽可能简单 — 理想情况下,从系统首次捕获数据的那一刻起。
实现这一目标面临的最大挑战之一是,数据现在的形式比以往任何时候都多。根据其来源,并非所有数据都可以立即在分析引擎中使用…或者就此而言,甚至可以通过人眼阅读。
解释此类数据以便成功捕获和保留这些数据可能需要以下一种或两种策略:
- 数据转换 — 将数据数字化,或将其转换为不同的数字格式,以使其易于人员、软件或其他系统所理解。
- 数据清理 —编辑或删除一些数据,以将其细化为分析所需的相关点。
当然,大数据带来的另一个复杂性是其庞大的数量,这使得人工数据输入对于许多任务来说是不切实际的。处理大量数据(通常来自实验室受控条件之外的来源)的需求通常使某种形式的自动化变得至关重要,这既可以处理信息量,又可以最大限度减少将数据输入 ELN 时出现人为错误的概率。
有三种类型的数据
ELN 数据源根据其结构可分为三类:
· 结构化数据
此类别是指已以标准化的机器可读格式(如电子表格或数据库)设置的数据。结构化数据是 ELN 最容易理解和使用的形式。根据来源的不同,可能需要进行某些数据清理,但通常,在输入系统时,几乎不需要处理即可使用。
· 非结构化数据
恰好相反,这种类型的数据是 ELN 环境最难处理的数据。非结构化数据的格式需要某种形式的转换或处理才能使用。
常见示例包括照片和其他图像、地图、图形和序列级数据。任何尚未采用数字格式的数据,例如打印报告或手写笔记,也属于此类别。
· 半结构化数据
此分类结合了结构化和非结构化数据的元素。在许多情况下,这是某种形式的非结构化数据,其中包含附加的元数据,例如研究人员的观察或仪器数据。虽然半结构化数据可以单独使用,但当将数据输入 ELN 时,使用分析软件处理数据的非结构化部分,可以显着提高其价值。
收获数据
无论您使用哪种类别的数据,都需要经过一个称为提取、转换、加载 (ETL) 的过程,然后才能进行分析。使用 ETL 收集数据,将其格式化为应用程序可读,然后存储以供使用。
领先的 ELN 应该有能力将实验产生的非结构化数据转换为半结构化数据。这种转变可使您实时进行分析方法、推理分析甚至预测趋势。
虽然可以将完全结构化数据直接添加到任何 LIMS 数据库中,但LabVantage ELN 在处理半结构化或非结构化数据时提供了强大的灵活性。
LabVantage ELN 是独一无二的,因为它具有企业 LIMS 应用程序的基础支持。使用 LabVantage 自己的科学数据管理系统(SDMS)直接无缝从仪器源捕获半结构化元数据和结构化数据。
一旦数据在 LabVantage ELN 中以可用形式出现,用户就可以选择进一步操作数据或将其直接输入到分析引擎,如 LabVantage Analytics。这不仅有助于简化日常实验室工作,还为专利、出版物和 FDA 的研究性新药申请提供了单一的统一事实来源。
例如,LabVantage 不仅允许您添加与特定工作表相关的附件以供 ELN 参考,而且(取决于数据类型)还可以直接在工作表中打开和捕获附件信息 — 使附件中的信息比大多数其他 ELN 更容易访问。
使用大数据异常困难。
各大公司尝试组合和成功集成多种数据类型并推断出有意义的结果。ELN 作为更广泛的信息化解决方案的一部分,必须高效并简化信息提取。至关重要的是,在当今复杂的数据环境中,必须能够同时存储、访问和分析大量数据,以成功降低成本并加快决策速度。