如何建立自己的小型法律雙語語料庫?

發布 科技 2024-08-03
24個回答
  1. 匿名使用者2024-01-31

    1.建立平行語料庫,需要收集雙語法律文字,必須是官方版本,才具有權威性。

    2.採集完成後,對文字進行處理和降噪,簡單來說就是把它放在word裡然後一鍵清除格式,或者放在txt裡,去掉特殊格式。

    3.文字對齊。 對齊工具可用於建立並行語料庫格式(TMX 或 TXT)的雙語文字,可以使用 Paraconc 進一步分析。 這裡的對齊工具推薦tmxmall**對齊,非常簡單,直接將雙語文件匯入其中,點選對齊按鈕,然後從頭到尾勾選,準確率很高。

    Web 鏈結。 這樣,他們自己的小型法律語料庫就建成了。 如果文字資源有限,也可以前往TMXMALL語料庫**購買語料庫。 進入**後,搜尋“法律”,即可搜尋所有與法律相關的語料庫。

    Web 鏈結。 <>

  2. 匿名使用者2024-01-30

    資料庫構建的方法具有通用性,只要準備了不同域型別的語料庫即可。

    1)準備(法律)雙語檔案。需要注意的是,原文和譯文需要嚴格比對,這是後續軟體識別的重要依據。

    3) 在 CAT 工具(如 Trados)中建立新的翻譯記憶庫,並匯入之前儲存的 TMX 檔案。

    關於可以購買的法律語料庫:1)第乙個建議是購買其他使用者在“tmxmall語料庫**”上傳的法律語料庫,後台可以預覽和檢視;2)去一些使用者多、比較活躍的譯者**搜尋精華帖子和熱門帖子,看看能不能免費買一些,但要注意檢查質量;3)找其他做法律翻譯的大神,購買他們的語料庫檔案資源,現在語料庫資料已經是翻譯人員或翻譯公司的核心資本,一般不免費傳輸。

  3. 匿名使用者2024-01-29

    有兩種方法可以做到這一點,供您參考:

    1. 直接訪問法律語言專業委員會,然後申請會員資格,你就可以開始了。

    2、是自己建立資料,即自己動手;

    這兩種方法各有利弊,希望對您有所幫助。

  4. 匿名使用者2024-01-28

    我害怕去拉薩。

  5. 匿名使用者2024-01-27

    基本上沒有辦法建立相應的語料庫,高質量的原創語料庫是高質量語料庫的前提。

    動態變化的語料庫:大眾傳播**的情況在不斷變化,語料庫也需要相應地變化。 (例如:.)

    1978年,我國只有186種報紙,基本上是單一的黨委機關報,但到1995年底,報紙數量增加到2202種,平均印刷期數增加了4倍,印刷總量增加了3.5倍。

  6. 匿名使用者2024-01-26

    3.如果公司之前做過翻譯語料庫,可以直接使用tmxmall對之前的翻譯進行對齊和復用。

    4.使用TMROBOT管理語料庫,防止語料庫過於雜亂和語料庫丟失的最大任務就是做好對齊,對齊效率越高,準確率越高,有用性越大。

    TMXMALL對齊是先基於段落對齊,再細化為句子對齊,提高了工作效率和準確性。

  7. 匿名使用者2024-01-25

    至少五年以上的翻譯才有意義,否則根本就只是杯水車薪,積累的也太少了。 乙個領域沒有數以萬計的語料庫,所以根本沒有使用它們。

  8. 匿名使用者2024-01-24

    最好在 trados 中使用 winalign,然後其實沒問題 參考文章: 1.使用翻譯記憶系統構建自己的雙語並行語料庫。

    2. 使用翻譯記憶系統構建雙語平行語料庫。

    看完這兩篇文章就可以明白了

  9. 匿名使用者2024-01-23

    您可以準備英漢、中英雙語素材,匯入準備好的雙語素材進行語料對齊tmxmall**對齊,匯入後tmxmall**對齊會將雙語素材對齊段落,稍微調整段落,然後點選“對齊”對齊句子。 勾選一次,即可直接匯出雙語並行對齊語料庫

  10. 匿名使用者2024-01-22

    TMXMALL**對齊非常方便使用,你只需要將採集到的文字進行降噪後清理乾淨,匯入到TMXMALL**對齊中,第一段對齊,然後句子對齊,檢查是否正確,可以匯出到本地,也可以匯入Yicat的記憶體庫。

  11. 匿名使用者2024-01-21

    方法 1:使用嚮導呼叫方法 您可以使用“檔案”選單“新建”或“工具”選單“嚮導” 方法 2:使用資料庫設計器 1 並使用嚮導建立資料庫 特徵:

    可以快速輕鬆地建立資料庫,但僅適用於常用資料庫。

  12. 匿名使用者2024-01-20

    要形成語料庫,您必須先準備語料庫,然後才能準備語料庫。

  13. 匿名使用者2024-01-19

    構建同義詞庫的第乙個條件是,您需要將單詞的所有內容歸納起來並將它們放在乙個包中,以便於製作。

  14. 匿名使用者2024-01-18

    形成語料庫需要很多東西,你要知道你組織的語料庫有合格的人、營業執照和你哥哥的證書。

  15. 匿名使用者2024-01-17

    如果中間有乙個語料庫,如果需要大量的資源,就可以形成乙個語料庫。

  16. 匿名使用者2024-01-16

    你需要的東西很多,首先你要有材料,然後你要有乙個倉庫,但你也要有乙個地方,時間、人力和物力都需要,最重要的是錢。

  17. 匿名使用者2024-01-15

    建立乙個語料庫需要很多東西,至少應該有很多材料。

  18. 匿名使用者2024-01-14

    形成語料庫的條件是手機資料。

  19. 匿名使用者2024-01-13

    語料庫 語料庫包含實際在語言實際使用中實際出現的語言材料,因此例句語料庫一般不算作語料庫;

    語料庫是承載語言知識的基礎資源,但它並不等於語言知識。

    真正的語料庫需要經過處理(分析和處理),然後才能成為有用的資源。

  20. 匿名使用者2024-01-12

    您只需要一台電腦、滑鼠和鍵盤。

  21. 匿名使用者2024-01-11

    只有一篇課文肯定是不夠的,必須有很多課文,而且為了保證課文的真實性(不能憑空編造),所以在做科研的時候,需要建立在語料庫的基礎上,所以就是以語料庫為基礎。 例如,當我研究乙個作家的語言風格時,我必須建立在他創作的文字之上。 如果我想研究漢語中的一些語言現象,我通常必須建立在乙個平衡的語料庫上,我也想學習其他語言。 語料庫通常是由某人建立的,不需要自己完成。

  22. 匿名使用者2024-01-10

    過程值不足。 檢視程序值是多少,如果值不夠大,則增加它。 另外,要注意伺服器的連線方式,無論是專用的還是共享的。

    在共享模式下,如果線條不暢通,很容易發生大量工序,導致工序值不足。

  23. 匿名使用者2024-01-09

    構建雙語並行語料庫,關鍵是首先要進行雙文件和單文件的雙語對齊,對齊完成後將語料庫匯出為TMX格式,然後應用到CAT軟體中。

    有兩種常見的對齊方法

    abbyy aligner。在本地對齊,需要時間才能開始。

  24. 匿名使用者2024-01-08

    免費不行,我這裡有付費資源,**不高。 這是京東永珍提供的中譯英翻譯平行語料庫,10級,中譯英翻譯平行語料庫用於人工智慧培訓,全人工翻譯、校對和對齊工作。

相關回答
9個回答2024-08-03

部落格:所有大**現在都為註冊會員提供部落格,如新浪、網易等,這類部落格只需要註冊乙個使用者名稱即可擁有自己的部落格,以及相簿空間等,也可以應用固定模板製作個性化主頁。 優點: >>>More

3個回答2024-08-03

請看如何構建它:

在貼紙的主頁上。 >>>More

6個回答2024-08-03

法律分析:放寬註冊資本登記條件,取消有限責任公司、一人有限責任公司、股份****最低註冊資本分別達到3萬元、10萬元、500萬元的限制,不再規定公司成立時股東(發起人)的初始出資額和出資額比例限制。 >>>More

11個回答2024-08-03

我總覺得團隊這個詞不好,我說不出確切的原因。 團隊,在中文中,乙個團體的概念,可能是幾十人或幾百人,這不適合兩個人的團體。 我們經常談論團隊合作,這意味著你想與小組成員合作和協作。 >>>More

7個回答2024-08-03

安排學生學習相關資料,採用考試相結合的方式,更好地掌握員工的培訓情況; >>>More