Skip to content

2024 Large Language Model (LLM) Hackathon for Applications in Materials Science and Chemistry

偶然搜到了这个材料科学和化学应用大型语言模型 LLM 黑客马拉松。非常感兴趣遂记录之。

Areas

  1. Molecular and Material Property Prediction:使用LLMs预测分子和材料的化学和物理性质,尤其擅长低数据环境,并结合结构化/非结构化数据。
  2. Molecular and Material Design:使用LLMs生成和优化新型分子和材料,包括肽、金属有机框架和环保建筑材料。
  3. Automation and Novel Interfaces:开发自然语言界面和自动化工作流程,简化复杂的科学任务,使研究人员更容易使用先进的工具和技术。(这个最好玩)
  4. Scientific Communication and Education:加强学术交流,自动化教育内容创建,促进材料科学和化学的学习。
  5. Research Data Management and Automation:通过LLM驱动的工具和多模态代理简化科学数据的处理、组织和管理。(这个最感兴趣)
  6. Hypothesis Generation and Evaluation:使用LLMs生成、评估和验证科学假设,通常结合多个AI代理和统计方法。
  7. Knowledge Extraction and Reasoning:通过知识图谱和多模态方法,从科学文献中提取结构化信息,并对化学和材料科学概念进行深入推理。(这个相对来说很成熟了)

自动化工作流程

LangSim

shap_interaction_matrix

LangSim 研究代理基于 LangChain 包构建,将现有仿真工作流实现为 LangChain 代理。

虽然我觉得这个软件优点很多,但是LLM 很难自主解决很多模拟上的问题。感觉软件计算几种简单的的性质还好,

T2Dllama: Harnessing Language Model for Density Functional Theory (DFT) Parameter Suggestion

shap_interaction_matrix

这个呢是利用了 retrieval augmented generation (RAG) technique [1] 相当于接入了数据库(虽然有研究表明这个不如上下文长一点把材料都丢里面效果好)。

yeLLowhaMMer: A Multi-modal Tool-calling Agent for Accelerated Research Data Management

使用 LLMs 来简化和加速数据处理任务,从用户那里获取自由格式的文本和图像指令并执行各种复杂的科学数据管理任务。

shap_interaction_matrix

例如指示代理:“提取我最近的 10 个示例条目,并总结所使用的合成方法。在这种情况下,代理将尝试使用 datalab API 编写和执行 Python 代码,以在 datalab 实例中查询用户的样本并编写人类可读的摘要。如果它生成的代码给出错误(或没有提供足够的信息),代理可以迭代重写程序,直到任务成功完成。

  1. Yunfan Gao, Yun Xiong, Xinyu Gao, Kangxiang Jia, Jinliu Pan, Yuxi Bic, Yi Dai, Jiawei Sun, Meng Wang, and Haofen Wang, “Retrieval-Augmented Generation for Large Language Models: A Survey”, https://doi.org/10.48550/arXiv.2312.10997.