高级检索

    欧建雄, 张礼平. HTML数据内容的抽取与集成[J]. 华东理工大学学报(自然科学版), 2003, (6): 613-616.
    引用本文: 欧建雄, 张礼平. HTML数据内容的抽取与集成[J]. 华东理工大学学报(自然科学版), 2003, (6): 613-616.
    Data Extraction and Integration from HTML Documents[J]. Journal of East China University of Science and Technology, 2003, (6): 613-616.
    Citation: Data Extraction and Integration from HTML Documents[J]. Journal of East China University of Science and Technology, 2003, (6): 613-616.

    HTML数据内容的抽取与集成

    Data Extraction and Integration from HTML Documents

    • 摘要: 在XML基础上,利用HTML Tidy可实现轻量级的Web数据挖掘和转换。转换过程主要解决的是HTML文档及其集合要表达的模式信息的分离。转换步骤是利用HTML Tidy提供的标准类库,净化HTML文档,借助DOM生成树对HTML元素结构做进一步分析,最后通过XSL、XPATH等自动提取转换。

       

    /

    返回文章
    返回