C#读取word中表格数据的方法实现-编程学习网

前些日子有一个项目需要从word文件中取表格数据并进行处理，网上大部分方案都是基于office的com组件实现，但是这样有一个缺点，如果电脑里没有安装office将无法使用，因为之前操作excel都是使用的NPOI，所以理所当然的想用NPOI解决此问题。

于是找到了如下代码

private List<string> GetDoc(string Path)
        {
            if (Path == "")
                return null;    //文件路径为空
            List<string> Result = new List<string>();    //结果容器
 
            FileStream stream = new FileStream(Path, FileMode.Open);    //打开流
            XWPFDocument docx = new XWPFDocument(stream);
            var list = new List<XWPFTableCell>();
 
            //循环遍历表格内容
            foreach (var row in docx.Tables[0].Rows)
            {
                foreach (var cell in row.GetTableCells())
                {
                    if (!list.Contains(cell))
                    {
                        list.Add(cell);
                        Result.Add(cell.GetText());
                    }
                }
            }
            stream.Close();
            return Result;    //关闭文件流（很关键，否则会导致下一个文件无法大开）
 
        }

但是这样做又有一个缺点，NPOI仅支持.docx格式的文件，如果读取.doc会直接报错！

于是后续又找到了另一开源组件freeSpire。有如下代码

        private List<string> GetDocX(string Path)
        {
            if (Path == "")
                return null;    //文件路径为空
            List<string> Result = new List<string>();
 
            Spire.Doc.Document doc = new Spire.Doc.Document();
            doc.LoadFromFile(Path);
 
            TextBox textbox = doc.TextBoxes[0];
            Spire.Doc.Table table = textbox.Body.Tables[0] as Spire.Doc.Table;
 
            foreach (TableRow row in table.Rows)
            {
                foreach (TableCell cell in row.Cells)
                {
                    foreach (Paragraph paragraph in cell.Paragraphs)
                    {
                        Result.Add(paragraph.Text);
                    }
                }
            }
            return Result;
        }

但是不知道什么原因，并不能抓取.doc文件中的表格。

随后尝试了其getText()函数确定可以直接抓取文字内容，初步判断可能是格式问题。

有考虑过自己写匹配函数对文本内容进行分析，但由于格式过于复杂，很多通用性问题无法解决后放弃。如果格式不复杂的话，也不失为一种解决方法。

最后采用的方法是先利用Spire组件将.doc转换为.docx后再利用NPOI进行内容处理，效果拔群！！！

        private string ChangeToDocx(string Path)
        {
            if (Path == "")
                return "";    //文件路径为空
            List<string> Result = new List<string>();
 
            Spire.Doc.Document doc = new Spire.Doc.Document();
            doc.LoadFromFile(Path);    //打开文件
            Path.Replace(".doc", "docx");    //替换后缀
            doc.SaveToFile(Path, FileFormat.Docx);    //保存为.doc
            return Path;
        }

主函数中调用如下：（若不是.doc则无需转换以节约开销）

if (Path.Contains(".doc"))
{
    string newPath = ChangeToDocx(Path);
    result = GetDoc(newPath);
}
result = GetDoc(Path);

到此这篇关于C#读取word中表格数据的方法实现的文章就介绍到这了,更多相关C#读取word数据内容请搜索编程网以前的文章或继续浏览下面的相关文章希望大家以后多多支持编程网！

文章详情

C#读取word中表格数据的方法实现

软考中级精品资料免费领

相关文章

猜你喜欢

C#读取word中表格数据的方法实现

python读取word文档表格里的数据

利用Java读取Word表格中文本和图片的方法实例

python实现读取excel表格详解方法

C#实现从PDF中提取表格的方法详解

C#实现拆分合并Word表格中的单元格

小程序中读取腾讯文档的表格数据的实现

C#读取txt文件数据的方法实例

Java读取PDF中的表格的方法示例

Unity连接MySQL并读取表格数据的实现代码

C++文件的数据写入和文件的数据读取的方法实现

pandas实现excel表格处理并读取指定sheet的方法

Python中怎么读取电子表格的数据

Java实现将导出带格式的Excel数据到Word表格

pyqt5+opencv 实现读取视频数据的方法

Pytorch数据读取与预处理的实现方法

Python中JSON数据的读取方法

利用Pandas读取表格行数据判断是否相同的方法

PHP实现数据库读取前几条数据的方法详解

C#水晶报表数据获取的方法